趣投稿|CodeBERT: 面向编程语言和自然语言的预训练模型( 二 )

CodeBERT经过预训练之后，在下游任务使用时需要微调。例如在自然语言代码搜索中，会使用与预训练阶段相同的输入方式。而在代码到文本的生成中，使用编码器-解码器框架，并使用CodeBERT初始化生成模型的编码器。
3 实验
我们选了四个不同的设置来验证模型的有效性，分别是自然语言代码检索， NL-PL的probing ，代码文档生成，在未经过预训练编程语言上模型的泛化性。
自然语言代码检索给定一段自然语言作为输入，代码搜索的目标是从一组代码中找到语义上最相关的代码。为了进行比较，我们选择了Husain 等人在2019年发布的 CodeSearchNet 语料库进行训练，数据集中包括六种编程语言，各种语言的数据统计如表2所示。

本文插图

表2 自然语言代码检索数据集统计
我们保持和官方一致，使用MRR作为评价指标。另外，我们计算了六种编程语言上的宏平均作为整体的评价指标。结果如表3所示，相比之前的模型，我们的模型取得了明显的提升。

本文插图

表3 自然语言代码检索结果
NL-PL Probing 这部分实验主要研究在固定模型参数的情况下，研究CodeBERT学习到了哪些类型的知识。目前学界还没有针对NL-PL Probing的工作，所以在这部分实验中，我们首先创建了数据集。具体地，我们将其构造成了多项选择题任务，给定输入，让模型选择正确的结果。根据输入和选项的不同，数据集又分为三个部分。模型比较结果如表4所示，结果显示，我们的模型在三个不同的设置下都能够达到最好的结果。

本文插图

表4 NL-PL Probing结果
代码文档生成我们研究了在预训练的六种编程语言上，代码到文档的生成问题。为了证明CodeBERT在代码到文档生成任务中的有效性，我们采用了各种预训练的模型作为编码器，并保持了超参数的一致性。实验结果如表5所示，我们的模型在所有编程语言类别上均获得最好的效果。

本文插图

表5 代码文档生成结果
泛化能力为了进一步研究模型的泛化性，我们在代码文档生成任务中，在C#编程语言上进行了测试。我们选择了Codenn数据集，这是一个包含Stack Overflow自动收集的66015对问题和答案的数据集，并采取了和原论文同样的设置进行实验。结果如表6所示，相比RoBERTa ，我们的模型能够取得更好的结果。但是，我们的模型效果略低于Code2Seq ，这可能是因为该模型有效使用了代码中的AST信息。

本文插图

表6 C#生成结果
4 总结
在本工作中，我们提出了第一个面向编程语言和自然语言的预训练模型，并且在下游的自然语言代码检索，代码文档生成任务上，我们的模型均取得了SOTA的效果。另外，我们构造了第一个NL-PL Probing数据集来研究预训练模型学到了哪种类型的知识。虽然我们的模型已经取得了很好的效果，但也有很多潜在的方向值得进一步研究，比如在预训练过程加入与生成相关的目标函数，加入编程语言的AST结构信息等。
[赠书福利]
AI科技评论联合【机械工业出版社华章公司】为大家带来15本“新版蜥蜴书”正版新书。
在10月24号头条文章《1024快乐！最受欢迎的AI好书《蜥蜴书第2版》送给大家！》留言区留言，谈一谈你对本书内容相关的看法和期待，或你对机器学习/深度学习的理解。

趣投稿|CodeBERT: 面向编程语言和自然语言的预训练模型( 二 )

推荐阅读

「德宏古茶」茶水服药的危害，可不只有影响药效

游戏爆料菌菌|点开在榜国一，哭了，全国最难上榜的省有多恐怖？马超一万战力才排名64

洋葱加花露水可以驱蚊吗花露水加花椒驱蚊吗

传统文化|为什么洗衣机排水管不能插地漏？我家入住才知坑，懊悔没早发现

做人怎样才能做得尽善尽美（一个抑郁症患者最后的心结请帮帮忙！）

购房后女子遭电话“轰炸” 团伙泄漏超10万条信息被判

『阿粉娱乐说』夫妻各玩各的，女方曾发声生理上的事不算事！，徐峥多次绯闻缠身

母婴参考|孕妈会发生几个变化，做好这些长胎不长肉，胎儿体重增长关键期

美国国债|中国连续抛出1200亿美债后，特朗普是扛不住了，亮出最后的底牌！

「温暖」温暖延续成都地铁“搭一把手”为高考学子出份力

两世欢▲《两世欢》还未收官，爱奇艺又一虐恋剧来袭，主演阵容让人满意！

[英为财情Investing]低于预期，美国南方公司 Q1 每股收益超出预期，营收

成成影视|让人丝毫没有抵抗力吧，丝绸紧身裤,

瘦腰最好的运动是什么？

三十而已■三十而已：如何看待梁正贤的不婚主义，如果是你，你会接受吗？

鱼的记忆有多久孔雀鱼的记忆有多久

中国|国防部：今起在台海附近组织实战化演练

黑苦荞茶有什么好处,黑苦荞茶和黄苦荞茶哪个好

龙息椒的辣度是多少龙息辣椒到底有多辣

老年人卧床怎样不得褥疮原因是什么