中年|高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR 2020( 六 )


基于这样的思路 , 用这种类SIFT , 我们提出了一个特征表达的标准 , 然后来看它的性能 , 经过几年的时间 , 这个性能越提越高 , 最后把它固定下来 。

CDVS实际深是从2012年2月份就开始做 , 到了2015年6月份就做完了 , 就完全冻结掉了 , 最后成为国际标准 , 所以差不多花了4年的时间把它做出来 。
中年|高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR 2020
本文插图

CDVA是在2015年做完以后 , 标准化组织团队就马上转向利用深度学习去做视频分析特征压缩的问题 , 也是花了差不多两年多、三年的时间慢慢把它做出来 , 这个是可以对深度网络的短视频 , 用它做特征的提取、做表达 , 后面每次这个特征的性能都会有所提高 , 对不同的网络 , 它的特征的检出和特征识别的效率也都在逐步提高 , 所以每次提高的趋势 。
第三个使能技术 , 我们把它叫做联合优化 。 所谓联合优化 , 就是在视频编码和特征编码之间 , 我要找到一个最优的结合点 , 使得这两个流捆绑到一起的时候 , 脑力分配是最优的 , 上面这个流是视频压缩流 , 下面这个流是特征压缩流 , 这样送到云里 , 它俩合起来是最优的 。
怎么能够做到最优呢?因为各自的优化模型都是有的 , 比如现在我们看到的这些是上面这部分 , 它是一个视频编码优化的流程 , 上面的虚线是视频编码 , 下面的虚线是特征编码 , 这两个编码在右端 , 我们是合成一个流 , 就是视频和特征流 。
中年|高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR 2020
本文插图


这一个流我们怎么样优化呢?我们要设置一个联合优化流程 , 把它放到一起去优化 。 视频编码的优化模型叫RBO , RBO就是给定码率损失最小的优化模型 , 它的优化曲线就是右下角这个曲线 。 在识别特征表达这一块 , 它是有一个RAO , 就是给定码率 , 让你精确度最高的优化模型 。
中年|高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR 2020
本文插图

这个优化模型给的曲线是反过来的 , 所以我们把这两个需要优化的东西给它放到一个优化函数里面表达出来 , 就是这张图的表达 , 根据这个东西我们联合求解一个优化的解 , 这就是第三个使能技术 。
中年|高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR 2020
本文插图

第四个使能技术是深度学习模型编码的使能技术 , 就是通过多模型的重用 , 通过模型压缩更新来做 。 这是深度学习怎么样去通过重用去使得整个模型的重用精度更高 。
这个重用既包括现有模型的重复使用 , 也根据目标模型训练所得到的提升 , 使得优化做得更好 。
中年|高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR 2020
本文插图


这样一个多模型重用 , 如果是在学习体系里面把它用好的话 , 它的性能就可以提高得比较好 , 所以怎么样使得这个多模型编码压缩 , 使得在重用当中可以快速地更新一个模型 , 就使得这个性能不停地提升 , 这两个就是模型编码的主要动机 , 有了这个就可以使得当你模型训练完了以后 , 压缩完了以后就可以快速推到终端去升级你的模型 。
中年|高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR 2020
本文插图

上面这些使能技术 , 最后它要汇总到一个芯片里面 , 这个芯片现在在北大杭州研究院下面的一家公司做出来了 , 第一个数字视网膜的芯片叫GV9531 , 刚才说的三组8个特性 , 这个芯片全都是支持的 。
中年|高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR 2020
本文插图


推荐阅读