新智元微软亚研院副院长周明：从语言智能到代码智能( 四 )

本文插图
图18：Fine-tuning框架
2. 发布数据集CodeXGLUE
为了支持代码智能的研究，研究人员发布了数据集 CodeXGLUE 。该数据集包括14个子数据集，用于10个多样化的代码智能任务，包括 Code-Code、Text-Code、Code-Text 和Text-Text 四大类。

本文插图
图19：CodeXGLUE

本文插图
图20：GitHub链接
3. 新的代码评估机制CodeBLEU
代码的评测需要考虑语法和语义问题，周明表示， CodeBLEU 评估机制融合了 N-Gram AST 和 Semantic Dataflow 及其不同权值组合进行评估，相关度测试表明， CodeBLEU性能更好。

本文插图
图21：CodeBLEU

本文插图
图22：CodeBLEU实验
周明表示，代码智能的研究更需要考虑代码语言上的特点，需要具有对全局内容进行建模的能力，代码翻译中编码的逻辑特点和代码搜索中复杂、多意图的自然语言理解等目前仍需要进一步改进。
报告最后，周明提出代码智能未来的研究方向：
1. 引入新的训练任务，以更好地表示代码的特征并考虑全局上下文。
2. 通过考虑逻辑、语义、效率、安全性、执行力等提升评估方法（CodeBlue++ ，更好的模拟代码质量）。
3. 探索类似于 NLP 任务之外的其他代码智能的任务（测试用例生成，用于算法设计的 AI ， bNg 检测和修复等）。
4. 呼吁软件工程领域和 NLP 领域之间进行更多的跨学科研究。
Q&A
Q1: 高校师生如何进行与预训练有关的研究？
周明:应从研究的角度探究其方法论，比如知识、领域知识常识、知识图谱等如何融入，在领域知识表达方面，研究能否用小模型做更好的工作，比如模型压缩、知识萃取等。在Fine-tuning方面也有很多工作可以去做。
另外，可以进行扩展应用领域的研究，包括单语言到多语言，甚至到语音、图像、视频、文档等新领域的扩展和跨学科的研究。
Q2: 自动生成的代码的语法规则是硬约束还是自动学习的？怎么保证这种正确性？
周明:这是做自然语言的人的弱项，我们只知道串对串，串生成完之后用 BLEU 算N-Gram匹配程度。这里存在一个非常重要的问题，就是如何衡量代码生成的能力和质量。
比如，逻辑上是否正确，语义上是否正确，效率是否高，安全性和可执行是否可以，这些目前还没有一个很好的办法来衡量，但在逻辑性、语义、效率等方面，可以进行一些模拟工作。
期待今后有更多的人做自动评价生成的代码的逻辑语义和效率问题的研究工作。
Q3: 自然语言处理与语音、图像结合的未来工作前景如何？
周明:自然语言从语音、图像领域借鉴了很多方法，比如，深度学习。自然语言处理研究者提出Transformer和更好的预训练模型，但我们不应固于自己的思路，应该把一切可序列化的问题，包括单序列化建模、多序列化的互相映射和比较都看作是一种自然语言任务，用自然语言的方法来帮助提高相关领域的技术发展，共同推动人工智能的发展。
Q4: 与语言智能相比，代码智能有什么独特的技术挑战？
周明:和自然语言相比，代码的书写需要遵循特定的语法规则。自然语言通常本身不可执行，但代码在编译环境下可以执行并返回结果。

新智元微软亚研院副院长周明：从语言智能到代码智能( 四 )

推荐阅读

巴尔多|黄海波陷入“快餐门”风波被封杀，出狱后的他，现过得怎么样？

液体卫生巾的弊端液体卫生巾为什么叫液体卫生巾

长春文旅|又到拼手速的时候啦！，重要通知！中秋国庆假期车票即将开售

职业教育|一位学技术的17岁女孩走红，初中生考不上高中，也没必要过多烦恼

唯小宝网络■自媒体运营推广方式有哪些？这8种方式你都知道吗？

鞠婧祎|开播就是第一！《心居》被赞剧情太真实，海清再演上海媳妇买房

德林社|昙花一现的巨无霸

电脑上怎么看淘宝直播怎么搜主播怎么用电脑看淘宝直播间

「中国青年网」独龙江：青春的岁月像条河

滑铁卢大学|在职场，哪些话不该说，哪些话应该少说

你咋样理解“有趣的灵魂”这句话

丁香茶什么时候喝最好

对话 | 广汽本田刘朝明：EA6提速广本电动出行战略

消费|消费需求加快释放！“十一”黄金周零售和餐饮日均销售额同比增长4.9%

史淑荣血液科医生|药不能乱吃，否则会让血小板更高！

中新网|乌鲁木齐：提升本地防疫物资生产能力日生产口罩逾40万只

喵喵次元|航空航天也离不开它，何为氧烛？不仅仅是潜艇兵的保命工具

男人|“优秀丈夫”的五个特征，中两个以上你就是嫁对人了，偷着乐吧

新鲜娱乐汇|郑希怡家基因绝了，她和她妈一模一样，她女儿和她小时候一模一样

第一大视野|饭圈小伙就这智商？tes投毒事件主角道歉：我还没到30岁不懂事