从多模态到泛化性,无监督学习如何成为人工智能的下一站?( 三 )


对于模型偏见 , 可以通过引入一个重构误差 , 然后用重构误差和聚类损失的折中来限制特征学习 。 就是说 , 不要为了减少损失而跑偏 , 最后导致聚类结果反而不好 。 我们可以用新知识 , 比如重构误差 , 来限制模型的学习 , 防止在训练过程中跑偏 。
2多模态场景
议题二:无监督学习技术如何促进多模态场景下不同领域之间知识的交互以提升性能?
真实的数据不只涉及文本 , 还有语音、视频等等 , 在这种多模态场景下 , 我们会思考无监督学习技术的应用 。 不同领域的知识一定要进行交互 , 只有交互才能引入其它领域的知识来提高任务的性能 , 那么 , 无监督学习技术如何促进不同领域知识之间的交互 , 最终提升性能呢?
从多模态到泛化性,无监督学习如何成为人工智能的下一站?
本文插图
无监督的跨模态数据对齐 , 是多种模态数据或者领域知识交互的桥梁 。 在多模态应用场景 , 进行视觉、语言处理或者更深入的将视觉与语言结合在一起的数据挖掘时 , 对于同一个实体或者描述同一个事件 , 可以从多个不同的角度 , 采集多模态的数据 , 不同的模态数据能从不同的角度刻画该实体或事件 。
通常的做法是融合来自多个模态的场景数据 , 以得到更好的结果 。 相关算法通常称为多视图学习和多模态学习 , 但挑战在于 , 在不同模态采集的数据不一定是对齐好的 。 比如视频、语音、文本、社交网络数据 , 它们之间可能存在一定的错配或者缺失 。
所以要对多模态数据进行融合 , 首先得判断数据之间是否已经对齐 。 比如多模态数据、多视图数据或者网络数据 , 可以通过学习数据的低秩表示 , 再通过互信息的方式建立一个目标函数 , 把不同模态、视图或网络的对应关系找出来 。 如果能找出来 , 不同模态之间的数据交互或者领域知识交互就成功了 。
其实 , 在缺乏监督信息情况下 , 无监督学习对多模态数据对齐的解决相当于在无监督情况下对数据进行分类 。
此外 , 利用已经配对良好的数据进行监督预训练 , 比如新闻和纪录片等数据 , 再泛化到其它数据进行无监督的对齐也是一个很好的研究方向 。
更广泛地说 , 在弱标注数据下 , 通过多模态数据之间的协同训练 , 在性能上会有很大的促进作用 。
3泛化性
议题三:无监督学习技术如何提升人工智能技术的鲁棒性及安全性?
众所周知 , 深度神经网络在一般情况下性能良好 , 被广泛运用到各种应用中 , 但它其实并不鲁棒 。 一个典型的例子是对抗攻击 , 即在图片中添加一些肉眼不可觉察的噪声 , 就可以使得网络出现错误的判别结果 。
从多模态到泛化性,无监督学习如何成为人工智能的下一站?
本文插图
对抗攻击不仅可以对分类任务产生影响 , 其对所基于的DNN任务(例如分割、追踪等)都有影响 , 具有严重的威胁 。 为了应对这种问题 , 现在人们也开发了各种防御的方法 。
目前 , 最有效的防御方式还是对抗训练 , 即在训练过程中引入对抗样本要求模型对于对抗攻击有足够的鲁棒性 。 然而 , 最近的研究表明 , 对抗训练需要更多的数据 , 即当数据集的大小保持不变的时候 , 对抗训练在提升模型鲁棒性的同时会牺牲一些精度 。
那么能否用无标签的数据提升模型的鲁棒性呢?毕竟 , 有标签的数据获取难度比较大 。 这里需要解决的核心问题是损失函数 , 因为原始对抗训练的损失函数是有目标的 。 直观上来说 , 对抗损失要求模型在一个区域内的预测都是正确的预测 , 这大概可以分解为两个任务:一个是要求模型在原始样本上足够正确 , 另一个是要求模型在原始样本的邻域内的输出足够鲁棒(稳定) 。 根据把原始对抗损失替换为标准损失与鲁棒损失的方式 , 我们可以在鲁棒损失中引入无标签样本 , 同时提升模型的精度与鲁棒性 。 那么除了改造损失函数 , 还有哪些方法能够引入无标签样本?这也是值得进一步思考的问题 。


推荐阅读