|预训练语言模型:还能走多远?( 八 )
而为什么它可以在语言的贡献的任务里去提升效果呢?因为它学到了语言之间的模式 , 比如说词跟词之间的一些相似度、一些搭配 。 这些知识对于我们现有的这些NLP任务确实有帮助 。
为什么对现有的任务有帮助呢?因为我觉得我们现有的NLP任务其实数据规模都不算大 。 而在翻译里面解决问题的效果不太好或许是因为数据量的问题 。 比如百度搜索在搜索相关信息之前 , 就是用大数据去训练相关性 , 使用用户的反馈去学相关性 。 所以我觉得与其说“大力出奇迹”还不如说“大数据出奇迹” , 当然也加上算力 。
接下来我谈一谈自己的感想 。
我觉得我们可以去更多地研究为什么预训练模型变好了 , 因为这样才便于我们更多的去指导怎么优化这个方向 。 而现在的所有的思路都是人是怎么想 , 人觉得我们要加知识 , 那是因为人自己觉得要学了知识才有用 , 这是从人的认知上角度去讲的 。
而在过去的很长一段时间 , 整个NLP的研究都在做建模 , 都在做针对任务的 , 基于下面大数据怎么做语义表示 , 这块其实一直没有这么研究 。 为什么现在通过这种Transformer加这种预训练模型就好了?这个事情我觉得其实是因为工业界还有一些限制 , 但学术界可以多研究 。
然后再讲一下“大力出奇迹” , 例如GPT-3 。 我们发现算力扩大了以后 , 确实表现会很不一样 , 我也比较认同 。 我们也发现其实你在不同的算力下 , 你得到的结论不一样 。 这个是我们工业界可能会去做的事情 。 那么从预训练模型上 , 我们也想探索一下 , 到底做到多大 , 能够效果还能够有多大的空间 , 这是我们后面想去解答的问题 。
最后就是跨模态 , 我觉得NLP现在把自监督的方法从传统方法中提出来以后 , 确实能够帮助视觉 , 我觉得未来视觉可能会做一些突破 , 因为视觉大部分的任务都是基于一个标注的大规模数据去预训练模型 。 这种大数据自监督怎么去用?我觉得这个方向肯定会有突破 , 可能会带来别的领域的惊喜 。
自由提问:预训练模型在短文本有很好的效果 , 但是一旦碰到长文本 , 尤其是图文交互的时候 , 就很难得到一个好的结果 。 想请问老师们我们应该如何去处理长文本?
刘群:长文本与短文本相比本身就会更难 。 这是一个客观的现实 。 由于长文本蕴含有更多的语义信息 , 在运行过程中也更容易丢失语义 。 由于Transformer的时间复杂度是句子长度的平方 , 如果模型复杂度能够降低到线性的话 , 这个问题可能会好处理一些 。 现在已经有一些这样的模型 , 但在真正的困难的问题面前还没有体现出它的威力 。
邱锡鹏:我补充一下 , 如果从解决问题的方向上去思考 , 可能有很多工程性的方法 , 最简单就是你用一个层次化的结构 。
孙宇:我想问一下咱们在座各位 , 试过GPT-3吗?有人有什么感想吗?
刘群:据我所知国内学者还没有人获得GPT-3账号 。
本文插图
本文插图
【|预训练语言模型:还能走多远?】
推荐阅读
- 超能网|亚马逊转用自家芯片进行人工智能训练,只剩少量程序仍然以显卡来训练
- 富前程社群裂变|富船长:Persona用户角色模型——一个找痛点神器
- |近期必读 ICLR 2021 模型压缩&预训练相关论文
- |甘肃消防探智慧建设:智能辅助作战训练 管理延伸细节末端
- |新模型揭示:餐馆是感染新冠“热点”场所
- |“增长”成娱乐营销必考题,酷营销-CBD模型为最佳选项?
- 大河风光|知乎带货实战训练营线上第2期,教您知乎带货,月收益几千到几万(无水印)
- 向奋科技说资讯|用了5年华为手机才发现,原来华为能当翻译器,一键翻译多国语言
- 技术编程,AI人工智能|性能超越图神经网络,将标签传递和简单模型结合实现SOTA
- |ImageNet训练再创纪录,EfficientNet异军突起,ResNet:感受到了威胁
