趣投稿|CodeBERT: 面向编程语言和自然语言的预训练模型
来自哈工大SCIR的冯掌印及其团队提出了面向编程语言和自然语言的预训练模型CodeBERT 。
CodeBERT通过预训练的方式学习一个通用表示来支持下游和编程语言相关的应用 , 比如自然语言代码检索 , 代码文档生成等 。
CodeBERT使用Transformer作为基本的网络结构 , 采用了混合目标函数:掩码语言模型(MLM)和替换词检测(RTD) 。
实验结果表明 , CodeBERT在下游的自然语言代码检索和代码文档生成任务上都取得了SOTA效果 。
为了进一步研究CodeBERT学到了哪些类型的知识 , 他们构造了第一个probing数据集 , 然后固定预训练好的参数来对模型进行检测 。 实验结果显示 , CodeBERT比其他预训练模型在probing上表现更好 。
论文名称:CodeBERT: A Pre-Trained Model for Programming and Natural Languages
论文作者:冯掌印 , 郭达雅 , 唐都钰 , 段楠 , 冯骁骋 , 公明 , 寿林钧 , 秦兵 , 刘挺 , 姜大昕 , 周明
原创作者:冯掌印
论文链接:https://arxiv.org/pdf/2002.08155.pdf
代码地址::https://github.com/microsoft/CodeBERT
1 简介
大规模预训练模型在自然语言处理领域取得了重要的进展 。 这些预训练模型通过在没有标注的语料上进行自监督训练 , 可以学习到有效的上下文表示 。 自然语言处理领域预训练模型的成功 , 也推动了多模态预训练的发展 , 比如ViLBERT (Lu et al., 2019), VideoBERT (Sun et al., 2019)等 。 在本文中 , 我们提出了CodeBERT , 通过学习自然语言和编程语言之间的语义联系 , 能够支撑众多NL-PL相关的任务 。
2 模型
我们采用了Transformer作为模型的基本网络结构 。 具体地 , 我们使用了和RoBERTa-base完全一样的结构 , 即都有12层 , 每层有12个自注意头 , 每个头的大小是64 , 隐层维度为768 。 模型参数的总数为125M 。
在预训练阶段 , 将自然语言文本和编程语言的代码拼接起来作为输入 , 两部分内容均使用和RoBERTa-base一样的tokenizer 。 数据样例如图1所示 。
本文插图
图1 NL-PL数据对样例
预训练数据集方面 , 我们使用了Husain等人在2019年提供的最新数据集CodeSearchNet , 里面包括 2.1M双模数据和6.4M 单模数据 , 其中双模数据是指自然语言-代码对的并行数据 , 单模是指只有代码的数据 。 数据集中包括六种编程语言 , 具体数据统计结果见表1 。
本文插图
表1 预训练CodeBERT数据统计
为了同时利用双模数据和大规模的单模数据 , 我们提出了混合预训练目标:掩码语言模型(MLM) 和替换词检测(RTD) 。
目标1:掩码语言模型 。 将NL-PL对作为输入 , 随机为NL和PL选择位置进行掩码 , 然后用特殊的掩码Token进行替换 。 掩码语言模型的目标是预测出原始的token 。 目标2:替换词检测 。 先分别用单模的自然语言和代码数据各自训练一个数据生成器 , 用于为随机掩码位置生成合理的备选方案 。 另外 , 还有一个判别器学习自然语言和代码之间的融合表示 , 来检测一个词是否为原词 。 判别器实际上一个二元分类器 , 如果生成器产生正确的Token , 则该Token的标签为真 , 否则为假 。 模型架构如图2所示 。
本文插图
图2 替换词检测目标模型架构
最终 , 模型预训练目标为
本文插图
推荐阅读
- 电脑使用技巧,windows系统|【Windows 10面向更多用户开放Meet Now功能】
- 趣投稿|OPPO 125W超快充电器或将于明年第一季度推出
- 趣投稿|三星发布首款5nm芯片Exynos 1080 vivo首发
- 互联网|华为突围的新B计划
- 趣投稿|早高FENG:苹果今天推送iOS 14.3 Beta 1后撤回/腾讯视频暗示价格将会调整
- 趣投稿|苹果发布会总结:Mac 更新自研M1芯片,尝鲜只要5299元
- 趣投稿|打乒乓球、拍CT、组装手表......人工智能帮你开脑洞
- 手机中国|OPPO推出Reno4萨拉赫定制版手机 面向埃及市场发布
- |进击高端,小鸟音响城墙不牢
- ColorOS|基于安卓11的ColorOS 11正式版面向Ace2系列推送
