从多模态到泛化性,无监督学习如何成为人工智能的下一站?
本文插图
作者 | 彩娴、青暮、宝尚
编辑 | 大鑫
2016年 , 图灵奖得主Yann LeCun 表示 , 未来几年的挑战是让机器学会从原始的、没有标签的数据中学习知识 , 即无监督学习 。 Yann LeCun提出 , 无监督学习是人工智能的下一站 。
2020年 , 图灵奖得主Geoffrey E. Hinton指出 , 人类无法完全依赖有监督学习的方法完成所有神经元训练 , 而需要更多来自于无监督学习的帮助 。
目前无监督学习技术备受关注 , 无监督表达学习技术在自然语言处理领域进展神速 , OpenAI 近期发布的包含1700亿参数的GPT-3预训练模型吸引了全世界的目光;无监督图嵌入表达技术在图学习领域取得了不俗的成果;自监督学习技术在视觉领域近期也有较大的突破 , Geoffrey E. Hinton 等谷歌研究者的最新研究一次就把无监督学习的指标提升了 7-10% , 甚至可以媲美有监督学习的效果 。
但我们同时也看到 , 对GPT-3的质疑声一直不断 , 无监督学习技术在更多的领域尚待突破 。
2020年8月22日 , 中国计算机学会青年计算机科技论坛深圳分论坛主办大湾区IT创新论坛“无监督学习 , 如何成为人工智能的下一站?” 。
本文插图
本次论坛吸引了超过1千人通过线下会场、腾讯会议及B站全程参与 , 包括涉及表达学习、自然语言处理、计算机视觉分析、数据挖掘、金融大数据处理等众多相关领域的青年学者、相关行业从业者及在读学生 , 共同思辨无监督学习技术如何真的能成为人工智能的下一站 。
在论坛的思辨环节 , 大家充分交流了自己对无监督学习当前发展及未来趋势的看法 , 并围绕三个议题展开了精彩的讨论 。 这三个议题分别对应于无监督的益处、多模态场景和鲁棒性 。
以下是邀请嘉宾及参与者的相关论点 , AI科技评论进行了不改变原意的整理 。
除了图像与视频的识别、检测与分割 , 其实视觉领域还有许多子任务 , 比方说:底层任务有图像的修复 , 中层任务有检测图像深度的估计 , 更上一层的任务包括图像里物体之间的关系预测 , 以及从图像到语句的生成或者视觉问答等等 。
各种各样的视觉任务都非常依赖于视觉特征的表达 。 自深度学习崛起后 , 由于在下游的任务中不可能搜集关于该任务的各种特定的数据进行训练 , 所以视觉特征的表达越来越依赖于预训练的模型 。
预训练模型指的是一个已训练好的、保存下来的网络 , 该网络通常已在一些大型数据集上进行了训练 。 目前一些比较著名的预训练模型包括:计算机视觉领域的VGG16、Mask R-CNN和自然语言处理领域的BERT、GPT-3等等 。
在视觉的预训练模型上 , 2009年出现了一个大规模数据集——ImageNet , 所以大家普遍使用在ImageNet上的预训练模型 , 然后再在其他子任务上进行训练 。
但是 , 通过ImageNet进行预训练的模型存在一些缺陷:1)预训练依赖ImageNet , 但ImageNet的数据量毕竟是有限的;2)ImageNet的标签是人工设计的 , 因此可能存在着一些数据的偏差;3)关于下游任务(即前面提到的各种各样的视觉任务) , 不同的下游任务有不同的特性 , 那么在ImageNet上预训练的模型在处理不同的下游任务时 , 可能会表现出不同的能力与特征;4)ImageNet数据集由人工来打标签 , 需要耗费巨大的人力物力 , 数据的扩展非常困难 , 而且预训练模型的训练与人的学习机制是相违悖的 , 人的学习不依赖于大量的标签数据来实现泛化能力 。
因此 , 近几年 , 研究人员逐渐转向利用无监督或自监督的方法去学习更好的预训练模型 。 在视觉领域 , 自监督模型的核心思想是设计各种各样的前置任务(pre-tasks) 。 这种前置任务可以是基于生成式的 , 也可以是基于判别式的 。
推荐阅读
- 上海检察|“嘉昆太”探索社区矫正检察监督一体化
- 杨驰原:面对电子棋牌产业创新发展,舆论监督要把握好“度”
- 大河网|办公椅国家监督抽查结果显示不合格率近1/4 提醒:着重看气压棒
- 监督|今年前8个月海南新增企业数量同比增长75.26%
- 央视新闻|强化监督 制止浪费 推动形成全社会勤俭节约风气
- 3DMGAME|樱井亲良监督、铃木裕制片人,《莎木》动画版公布
- 上海市药品监督管理局网站|上海市市场监督管理局关于春节期间食品安全消费提示(三)
- 上海市闵行区人民政府网站|区农业农村委执法大队开展2020年肥料质量监督抽查工作
- 松江区洞泾镇人大办公室|松江区洞泾镇人大走访调研镇市场监督所
- 龙之队|我们用婴儿拍的视频训练了个自监督模型,学到了高级视觉表征
