『LiveVideoStack』?5G+AI时代的高效视频处理( 二 )


随着视频编解码越来越复杂 , VVC里的一些新的编码工具的复杂度也是一代一代地增加 , LCEVC主要的目的就是 , 不管在软件还是在硬件方面 , 把复杂度降低 , 这相当于把复杂度倒回去 , 因为H.264->H.265->H.266越来越复杂 , 所以LCEVC可以在硬件受限制的场景下进行使用 。
随着人工智能或者5G的发展 , 视频编解码应用的场合越来越多 , VVC的目的就是满足对一个巨大而全的编码方式的需求 , 但是在这样的标准出来之后 , 首先要解决的并不是技术问题 , 而是知识产权的归属以及收费的模式 , 这才是阻碍VVC大量发展与应用的关键因素 。 1.2 VVC的新的编码工具
『LiveVideoStack』?5G+AI时代的高效视频处理
本文插图
这里列举了VVC里的一些新的编码工具 , 实际上从整个MPEG发展到现在的趋势看 , 它的整个框架并未偏离hybrid-coding的趋势 。 随着目前AI的兴起 , 很多研究人员开始用一些深度学习的方法来替代其中的一些coding tool 。 所以H.266/VVC可能是最后一代混合架构 。 右图中假如H.264把整个图像分成16x16的Block , 可以再分成小的4x4 , 但是不能扩大 。 而H.265在图像的平滑区域 , 会将编码的LCU划得更大 。 H.266/VVC更近一步 , 会把整个CTU做到128/256甚至更多 。 如果在图像纹理非常明显或者非常密集的地方 , 可以做很多很小的划分 , 通过这种不对称的划分方式 , 可以大幅度提升编码效率 。 1.3 VVC的多样性
『LiveVideoStack』?5G+AI时代的高效视频处理
本文插图
VVC主要解决以下三个问题:一是屏幕内容编码 , 随着玩游戏人数的增加 , 大部分观看的都是游戏重播 , 即把游戏录制下来然后进行播放 。 很多时候游戏内容跟一般的自然风景内容不同 , 它的结构所表现出来的形式和自然产生的是完全不同的 , 如果还是采取针对自然场景下的压缩形式就达不到较好的效果 , 所以VVC里的Versatility最重要的一点就是屏幕内容编码 。
二是参考图片重采样 , 先传输一个720的分辨率 , 再调成1080或者4K的分辨率 , 如果采用传统的方法是难以进行参考的 。 因为分辨率变成了1080 , 不可能再取前面的那一帧 , VVC就是尝试着解决随着Streaming的内容越来越多的时候 , 编码工具如何变化以减少基流的费用开支 。
三是独立子图片 , 其中包括了像360等级的视频 , 主要针对虚拟现实情况下的编解码 。
『LiveVideoStack』?5G+AI时代的高效视频处理
本文插图
总的来说VVC主要针对多样性 , 根据不同的场景进行编解码处理 。 目前最新的测试模型6.1跟HEVC(HM)相比 , 基于PSNR的HD和UHD比特率会降低38% 。 一般情况下视频标准都是10年一代 , 但由于AVS以及AV1、AV2等的竞争 , VVC的标准提前了大约三年左右 。 另外 , 目前版本的VVC中我们可以看到x8.9倍编码器和x1.6倍的解码器硬件资源消耗的增加 。 2. 对于机器视觉而言的视频压缩2.1 面向机器视觉的编码
『LiveVideoStack』?5G+AI时代的高效视频处理
本文插图
这部分介绍了面向机器视觉的视频压缩与人和机器混合视觉的视频压缩之间的区别 。 对于人的视觉来说 , 较高的高清度还原性是最重要的 , 即看到的就是所拍摄下来的内容;其次是较大的图像规格 , 即不断的提高视频的分辨率;三是帧率的提高 , 随着VR的发展 , 为了满足人眼的舒适度就要不断的提高帧率 。
但是对于机器来说 , 视觉要求没有人那么高 , 但是要求具有较高的精确度;其次是较低延迟 , 尤其在5G情况下 , 要求较低的延迟;最后是面向目标对象 。
评估面向机器的视频编解码的性能主要有三点:PSNR、mAP、主观和客观的评判标准 。 2.2 面向机器视觉的应用场景


推荐阅读