宽哥玩数码|正是多模态技术未来亟需突破的瓶颈,京东姚霆:推理能力( 二 )


实际上 , 姚霆不仅在学术上成果颇丰 , 在京东也有更多机会将实验室的研究成果落地 。
在这里 , AI研究院计算机视觉和多媒体实验室主要有4个研究方向:人脸计算、人体分析、图像理解和视频分析 , 而姚霆所带领的视觉内容分析团队主要关注两个方向 , 即视频内容理解和视觉与语言 。 前者包括从底层的针对视频理解的神经网络设计 , 视频特征表达学习 , 到视频动作/事件识别 , 动作定位和检测 , 视频语义分割 , 视频描述生成等全栈式的分析维度 , 后者则集中在图像/视频的语义特征学习 , 视觉与语言的特征交互 , 以及跨模态的预训练课题 。 以学术研究带动产业落地 , 正是姚霆所带领的团队要做的事 , 在多模态技术研究上 , 这支团队一直尝试多模态领域有所突破 , 比如近期该实验室在视觉与语言方向提出了一个全新的高阶注意力机制(X-linearAttentionBlock) , 首次将其融入至图像描述生成任务中 , 主要的技术创新是打破了传统注意力机制中一阶的特征交互限制 , 通过所设计的高阶注意力机制可以灵活地捕捉不同模态间高阶乃至无穷阶的特征交互 , 大大提升了视觉到语言的跨模态转换性能 。 这个注意力机制在COCO在线测试集上达到世界领先的水平 , 并被CVPR2020接收 。
在视频内容理解课题上 , 实验室在2019年提出了局部——全局传播(LGD)网络 。 这种全新的神经网络结构设计另辟蹊径地在传统三维卷积网络基础上引入了对全局信息的独立建模 , 提升了视频基础特征的描述能力 。 此外 , 不同于现有的由人工设定的视频网络结构 , 实验室还创新性地提出了基于可微分结构搜索的视频网络结构自动搜索方法(SDAS) , 从而在视频数据上让机器自动地学习和设计针对视频内容理解的网络结构 , 同时也可以在搜索过程中加入对于运行效率的约束 , 以定制化地搜索最优的网络结构 。
宽哥玩数码|正是多模态技术未来亟需突破的瓶颈,京东姚霆:推理能力
文章图片
多模态表示学习、模态转化等“老大难”问题怎么解决?
保持技术创新的过程中 , 姚霆团队很清楚地意识到 , 多模态在技术层面一定绕不过一些难以解决的“老大难”问题 , 比如多模态表示学习、模态转化、多模态融合、跨模态分析、跨域学习 , 就是几个典型的挑战 。 针对这些问题 , 京东其实提出了一些有效的方法 , 也许对相关领域的研究人员和学习者有一定借鉴意义 。
在多模态表示和跨模态转化方向 , 姚霆以视觉和语言方面举例 , 2017年在图像特征表达方面融入了高层语义特征 , 以增强所生成语言描述和图像的语义一致性;2018年则更进一步挖掘了图像中物体和物体间的语义空间关系 , 构建出物体间语义和空间的关系图 , 从而促进对图像内容的深层次理解 。 然而 , 尽管物体间关系图有效地引入了物体间关系的语义信息 , 但依然无法充分表达整个图像所包含的丰富语义 , 所以在2019年 , 京东又提出了一种多层次的树形语义结构 , 它囊括了从语义分割后的物体实例到检测后的物体区域再到整个图像的不同层级之间的语义信息 。 通过这样一种树形结构 , 可以有效地对物体不同层次间语义关联性进行编码 , 从而最终生成更为精准的描述文本 。
这一系列工作的研究脉络基本都是围绕着在跨模态转化过程中不断强调对视觉内容的理解 , 而语言建模部分都是采用通用的RNN或Transformer类似的结构来实现 。 不同于这一研究脉络 , 在今年京东最新的工作中 , 他们在上文中提到的高阶注意力机制则逐渐聚焦于视觉内容和语言建模这两者之间的特征交互 , 希望可以通过不同模态间基于高阶的信息交互 , 让两者成为相互促进的整体 。 跨域学习也是京东另一个持续关注的研究方向 。 姚霆解释到 , 因为跨域学习可以很好地提升模型在不同场景下的泛化能力 , 并且无需更多目标场景下的人工标注就能实现模型在不同域下的迁移 , 这与京东在各种实际场景中快速进行模型落地的需求吻合 。 所以 , 针对跨域学习 , 京东在广度和深度上都有一些研究 。


推荐阅读