余温|ECCV 2020 Oral | TCGM:基于信息论的半监督多模态学习框架


余温|ECCV 2020 Oral | TCGM:基于信息论的半监督多模态学习框架本文是计算机视觉领域顶级会议 ECCV 2020 入选 Oral 论文《基于信息论的半监督多模态学习框架 (TCGM: An Information-Theoretic Framework for Semi-Supervised Multi-Modality Learning)》的解读 。
作者 | PKU CVDA
编辑 | 青 暮
余温|ECCV 2020 Oral | TCGM:基于信息论的半监督多模态学习框架论文链接:
1
引言比起仅仅利用单个模态的数据 , 融合多个模态的数据信息能够训练出更加准确且鲁棒的分类器 。 比如 , 模型可以用X光图片、临床指标等数据来预测病人的身体情况 。 但是在实际中 , 多模态的精标注数据十分昂贵 , 往往只能在每个模态上获取少量标注数据 。 如何利用少量的多模态标注数据来高效地训练分类器成为一个关键问题 。
本文将这个问题转化为等价的半监督+多模态学习问题 。 在这个背景下 , 我们关注如何在训练中利用好未标注的多模态数据 。 本文的贡献在于 , 设计一个全相关(Total Correlation)的下界作为在未标注的多模态数据上的目标函数 , 来更好地融合跨模态的信息 。 全相关(Total Correlation)是关于多个随机变量之间共有信息的度量 , 在两个随机变量下全相关退化为互信息(Mutual Information) 。
更具体地 , 本文提出去最大化每个模态的全相关增益(Total Correlation Gain) 。 每个模态上都有一个分类器 , 而这些分类器的共同的目标就是在未标注数据上 , 去最大化它们的全相关增益 。 若我们假设所有模态的信息关于真实标注(ground truth)是条件独立的 , 最大化全相关增益直观地来看是去找到所有模态之间的“信息交集” , 即真实标注 。 如下图所示:左图是对条件独立的直观阐释 , 右图是对真实标注是“信息交集”的图示 。 在最大化全相关增益的过程中 , 每个模态上的分类器能够更好地利用其他模态的信息 。
余温|ECCV 2020 Oral | TCGM:基于信息论的半监督多模态学习框架图1. (左图)条件独立假设;(右图)真实标注是“信息交集”
2
方法给定未标注的数据集 与标注数据, 其中
关于如何衡量全相关增益 , 本文扩展[1]中的互信息增益到全相关增益上 。 它的实质是 在给定密度比值后的对偶下界 。 全相关增益具体表达如下:
余温|ECCV 2020 Oral | TCGM:基于信息论的半监督多模态学习框架其中 为从共同分布中采样的样本数 。 直观来看 , 全相关增益鼓励分类器在采样自共同分布的多模态数据上的输出结果相似(第二项) , 在采样自边缘分布乘积的数据上的输出结果不同(第三项) , 类似对比学习(Contrastive Learning) 。 在 时的可视化见下图 。 此外 , 我们证明了在期望下 , 当每个模态上的分类器是贝叶斯最优分类器时 , 全相关增益取得最大值 。
余温|ECCV 2020 Oral | TCGM:基于信息论的半监督多模态学习框架图2. 三个模态上 TCGM 的计算
3
实验结果我们在三个多模态数据集上验证我们的方法:新闻分类数据集 Newsgroup;情感分类数据集 IEMOCAP 与 MOSI;与医疗图像数据集 ADNI 。 我们在不同比例的标注数据下做了多组实验 , 结果如下:
余温|ECCV 2020 Oral | TCGM:基于信息论的半监督多模态学习框架


推荐阅读