机器|冯志伟|罗塞塔石碑与机器翻译( 十 )
本文插图
对神经机器翻译而言 , 几百万个句子的语料都不能算作是大数据 , 商用神经机器翻译系统基本上都要数千万个句子的大数据作为训练语料 。 如果语言数据匮乏 , 神经机器翻译的译文质量就难以保证 。 为解决语言数据匮乏的问题 , 学者们开始探讨小规模语言数据资源下神经机器翻译的可行性问题 , 最近已经形成一种神经机器翻译的新范式:使用大规模的文本语料库数据(large-scale text corpus)进行“预训练”(pre-training) , 建立“预训练语言模型”(pre-trained language models) , 然后使用面向特定任务的小规模语言数据集(task datasets)进行“微调”(fine-tuning) , 形成“下游任务的模型”(models for downstream tasks) 。 这样的新范式使研究者能够专注于特定的任务 , 而适用于各种任务的通用的预训练语言模型可以降低神经机器翻译系统的研制难度 , 从而加快神经机器翻译研究创新的步伐 。
本文插图
解读罗塞塔石碑依据的平行语料库方法是非常具有启发性的 , 这样的方法现在已经成为当代机器翻译方法的基石 , 它既是统计机器翻译方法的基础 , 也是神经机器翻译方法的基础(冯志伟 2018:23-27) 。 把机器翻译看成是一种解读密码的技术 , 使用大规模的平行语料库数据进行解码 , 是机器翻译思想取之不尽的源泉。
作者简介:
冯志伟 , 杭州师范大学外国语学院特聘教授 , 教育部语言文字应用研究所研究员、博士生导师、学术委员会委员 , 研究方向为计算语言学、理论语言学、现代术语学 。
(扫码阅读全文)
本文来源:《外语学刊》
推荐阅读
- act视觉系统设计|机器视觉在线检测汽车零件的位置和朝向
- 新资讯|“坏机器人”向消除种族歧视组织捐赠1000万美元
- 神经|坤鹏论:人类是机器吗?
- 雨融YUKON|成本3.5万亿的未来城市:打算靠机器人维护,为建城2万人被迫搬离
- |我省首例!脑部手术没开颅,机器人辅助成功治疗三叉神经痛
- 吃货峰子|刚知道,大街上卖麻油,虽然闻着香,原来猫腻在机器里,幸好没买
- 广州会展通|73岁日本情色艺术大师,“机械姬”迷倒众人,第一次对机器人有了非分之想
- 育儿专家育儿教子|婆婆还要求生三胎怎么办?女人不是生育机器,自己的肚子自己做主
- 机器|写作者如何骗过机器审核?很多自媒体写作者苦恼于机器审核,把关过严,甚至把一些稍微带有敏感字眼的文章给枪毙了,弄得写作者本人很沮丧。那
- 奚梦瑶|豪门梦破碎?沦为生子机器?奚梦瑶为何因为穿橙色衣服被骂上热搜
