中年|高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR 2020( 四 )


本文插图

数字视网膜现在形成了有8个特征的定义 , 这8个特征原则上分成三大组 。
中年|高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR 2020
本文插图

第一组特征的定义是和时空有关的 , 一个数字视网膜的终端必须要有全局统一的时空ID , 包括全网统一的时间和精确的地理位置 , 比如说GPS或者北斗的位置 , 有了这个东西之后 , 城市大脑就很容易同步 , 或者很容易可以对标 。
中年|高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR 2020
本文插图

第二组特征简单来说是视频编码+特征编码+联合优化 , 这是所有的摄像头都应该支持的一个工作 , 当前绝大部分摄像头只支持视频编码 。
视频编码很容易理解 , 就是为了存储和离线观看影像重构 。

特征编码是为了模式识别和场景理解的紧凑特征表达 , 联合优化是因为现在在城市大脑里面它有两个码流 , 一个是视频编码压缩流 , 一个是特征编码压缩流 , 这两个码流会捆绑到一起进行传输 , 所以我们要有一个优化策略 , 把这个带宽到底分多少给视频编码、分多少给特征编码 , 这样通过一个联合优化 , 使得整个系统是最优的 。
中年|高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR 2020
本文插图

第三组特征 , 简单来说就是模型可更新、注意可调节、软件可定义 。
什么叫模型可更新呢?因为我们现在必须要考虑怎么样支持神经元网络 , 不同的模型升级了 , 你要可以实时更新 。
注意可调整是说 , 现在的摄像头是没有注意的 , 你把这个东西指到哪儿 , 景深设定到哪儿 , 它就在那儿 , 当然可以通过人工远程调节它 , 可以拉近、拉远等等 , 但是它不是自动的 , 我们希望它能做到自动的注意可调节 。
最后一个特征就是软件可定义 , 这一点大家很容易理解 , 系统要想升级 , 可以通过软件定义的方法 , 对系统自动升级 。 这三个特点如果具备 , 终端就可以做得非常智能 。
中年|高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR 2020
本文插图

当然 , 要想把数字视网膜技术全部用起来 , 这里面有一些使能技术 。

中年|高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR 2020
本文插图

第一个是视频编码 , 现在做城市大脑、监控系统都离不开视频编码 , 摄像头里面都有一个视频编码芯片 , 视频编码芯片用的标准 , 最早期是H.264 , 或者用AVS的编码标准 , 最近开始使用H.265或者AVS2的标准 , 未来不久就会用上H.266和AVS3的标准 , 这个标准差不多每10年就会更新一代 , 效率每10年就会提高一倍 。
为什么能够做到编码压缩?一个视频是一个图像序列 , 图像序列里面包含了很多数据的冗余 , 基本上有三大类冗余:一类是和空间冗余有关的 , 一类是和时间冗余有关的 , 另外一类是和编码冗余有关的 。
中年|高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR 2020
本文插图

所以现在整个视频编码里面用的算法 , 我们一般把它叫做混合视频编码架构 , 这个混合就把刚才三种主流的冗余用不同的算法去掉 。
比如说为了去除空间冗余 , 一般我们采用正交变换 , 比如说DCP变换等等正交变换把它去除掉 。 为了去除时间上的冗余 , 就是帧和帧上的冗余 , 一般我们会采取预测编码 , 比如说各种各样的滤波器 , 把帧间的冗余去除掉 。
中年|高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR 2020
本文插图


为了使得编码的分配最符合熵的定义 , 我们使用信息熵编码来去除编码上的冗余 , 这三个冗余都去除干净了 , 整个视频流里就可以压得很小 , 只有有用的信息、有用的数据甩出去 , 这些冗余都被挤压掉了 , 这是视频编码 。


推荐阅读