从多模态到泛化性,无监督学习如何成为人工智能的下一站?( 二 )
基于生成式的前置任务是说:抹掉图的部分内容 , 然后去预测所抹掉的部分;或是把图转成灰色图 , 去预测图的彩色模样;或是观察视频的前几帧 , 去预测这段视频的下一帧 。 例如 , Image GPT是像语句一样把图像看作一个像素的序列 , 通过基于前面的像素去预测后面的像素 。
另一种是基于判别式的 , 即设计一个分类任务 , 把一张图打散成块状 , 然后去预测序列的分类 。 或者是 , 对图像做一些更改 , 然后判别图像经过了哪几种不同的变化 。 根据现在的研究 , 在分类任务上 , 基于判别式的预训练模型所取得的结果比基于生成式的预训练模型更好 。 近几年 , 关于对比学习的方法(基于三元组分类的方式)受到了广泛关注 , 它比生成式的方法取得了更好的性能 。
根据最新的NeurIPS投稿 , 在图像分类方面 , 基于自监督的预训练模型的准确率与基于全监督ImageNet的预训练模型的准确率差距(gap)缩小到了大约2%以内 。 在视频方面 , 自监督预训练一般是用视频的前几帧去预测视频的下一帧 , 这时 , 自监督模型与全监督模型之间的的gap比图像分类任务要大一些 。
进一步的研究发现 , 如果把视频的预训练数据扩展到多模态数据 , 例如视频加上声音或各种语言 , 然后再去设定前置任务 , 这时候预训练的模型在执行视频的下游任务时 , 性能可能会更好一点 , gap大概可以缩小到5%以内 。
总的来说 , 这种基于自监督的预训练模型是当前视觉领域的研究热点之一 , 预计在未来也会慢慢替代基于监督的预训练模型 。
1无监督学习的益处
议题一:哪些领域更可能从无监督预训练模型中受益?无监督预训练模型的学习偏见如何解决?
使用无监督预训练模型的最主要领域是CV和NLP , 在CV和NLP领域里面 , 哪些细分领域更可能从无监督预训练模型中受益呢?以及无监督预训练模型的学习偏见如何解决?
从CV角度来看 , 刚刚提到 , 自监督的预训练模型在执行图像分类时最好的研究结果是 , 与监督预训练模型之间的Gap只有2% 。 但最近Facebook提出了一个最新的模型叫MoCo(动量对比学习) 。 研究人员发现 , 虽然自监督预训练模型比基于全监督的模型相差2%的gap , 但在执行CV的下游任务(包括图像的分割、检测与小样本学习)时 , 自监督预训练模型比基于全监督的预训练模型表现更好 。 也就是说 , 虽然自监督在ImageNet的分类任务上没有表现地特别好 , 但它比监督模型更适合执行下游任务 , 普适性和鲁棒性更佳 。
从NLP角度来看 , 更好的泛化性也存在 。 现在的大趋势是:如果不使用大规模的无监督学习方法 , 基本上研究就无法继续 。 在NLP领域 , 所有的问题都得从大规模无监督模型开始 , 然后基于无监督模型进行后续的任务 , 否则性能肯定上不去 。 所以结论是:NLP领域的所有研究问题基本上都会受益于无监督预训练模型 , 但无监督模型在实际应用系统上的表现则带有不确定性 , 因为涉及到许多其他方面 。
从深度聚类角度来看 , 影响聚类性能的要素在于特征表示 。 但有一个问题是:在聚类的过程中 , 因为没有标签 , 所以没有办法继续对损失进行定义 。 在这个过程中 , 我们一般是先基于一个模型对输入进行初始化 , 然后基于性能好的autoencoder来学习聚类中心 。
如果聚类中心和特征同时学习 , 模型可能会漂移 , 而且不知道会漂到什么地方 。 所以 , 在预训练过程中 , 要先只学习一个聚类中心 , 然后保持中心不变 , 再去学特征 。 就相当于 , 在一开始 , 通过预训练得到一个中心 , 然后把这个聚类中心固定 , 再通过预训练来学习特征表达 , 最后用特征表达做聚类 。
此外 , 无监督预训练的偏见问题产生 , 涉及到很多因素 , 比如样本没有选好 。 最近有研究发现 , 在无监督预训练中 , 数据并不是越多越好 。 要根据任务细心选择数据 , 使训练样本和目标样本的匹配度更高 。 否则的话 , 就算数据量达到了要求 , 但进行预训练之后 , 它的效果反而会下降 。
推荐阅读
- 上海检察|“嘉昆太”探索社区矫正检察监督一体化
- 杨驰原:面对电子棋牌产业创新发展,舆论监督要把握好“度”
- 大河网|办公椅国家监督抽查结果显示不合格率近1/4 提醒:着重看气压棒
- 监督|今年前8个月海南新增企业数量同比增长75.26%
- 央视新闻|强化监督 制止浪费 推动形成全社会勤俭节约风气
- 3DMGAME|樱井亲良监督、铃木裕制片人,《莎木》动画版公布
- 上海市药品监督管理局网站|上海市市场监督管理局关于春节期间食品安全消费提示(三)
- 上海市闵行区人民政府网站|区农业农村委执法大队开展2020年肥料质量监督抽查工作
- 松江区洞泾镇人大办公室|松江区洞泾镇人大走访调研镇市场监督所
- 龙之队|我们用婴儿拍的视频训练了个自监督模型,学到了高级视觉表征
