机器|冯志伟|罗塞塔石碑与机器翻译( 八 )
这样的语言模型是端对端(end to end)的语言模型 , 源语言输入后 , 由编码器(encoder)使用循环神经网络(Recurrent Neural Network , 简称RNN)或卷积神经网络(Convolutional Neural Network , 简称CNN)进行编码处理 , 然后直接由解码器输出翻译结果(参见图31) 。
本文插图
在图31中 , 输入中文句子“你知道去北京站的路怎么走吗?”由编码器进行编码 , 经过神经网络RNN或CNN处理后用解码器进行解码 , 便可以得到英文译文Do you know the way to Beijing Railway Station?
神经机器翻译与统计机器翻译有同有异 。 它们的相同之处在于:(1)它们都要使用大规模的双语平行语料库的数据进行模型训练 , 具有明显的经验主义色彩;(2)它们都重视语言数据的统计计算 , 它们的数学原理都建立在统计学的基础之上;(3)它们的输入和输出都是单词的序列 。
它们的不同之处在于:(1)神经机器翻译需要设计一个大型的多层次的神经网络(Neural Network) , 而统计机器翻译不需要设计这样的神经网络;(2)神经机器翻译不需要对于语言符号(linguistic symbol)进行计算 , 而只要把语言符号转换为词向量(word vector)嵌入到向量空间(vector space)中进行计算 , 整体的计算针对没有语言符号的实数值(real value)进行 , 而统计机器翻译需要对语言符号及其特征表示(features representation)进行统计描述和计算;(3)神经机器翻译不需要进行单词对齐 , 而统计机器翻译需要进行单词对齐;(4)神经机器翻译不需要编制短语表(phrase table)或规则表(rule table) , 也不需要手工编制的语言特征规则(language feature rules) , 而统计机器翻译需要手工编制的或者半自动编制的短语表和规则表作为统计计算的支持 , 而这样的语言特征规则的编制和获取是一项极为艰苦的“语言特征工程”(language feature engineering);(5)神经机器翻译不需要研制目标语言的N元语法模型(n-gram model) , 而统计机器翻译需要研制目标语言的N元语法模型来保证目标语言输出的流利度;(6)神经机器翻译不需要研制翻译模型(translation model) , 而统计机器翻译需要研制翻译模型来保证译文的忠实度 。
由此可见 , 神经机器翻译可以完全依靠双语平行语料库的数据来进行全自动的机器翻译 , 摆脱艰苦庞杂的语言特征工程 , 只要有大规模的、真实的语料库数据 , 即使不懂语言规则也可以得心应手地进行神经机器翻译的研制 , 并且神经机器翻译的效果远远高于基于短语的机器翻译(Phrase-based Machine Translation , 简称PBMT)和统计机器翻译 。 这样的神经机器翻译可以真正地实现多年前著名机器翻译的先行者Bar-Hillel(巴希勒)提出的“全自动高质量机器翻译”(Full-automatic and High quantity Machine Translation , 简称FAHQMT)的预想 , 把FAHQMT由学者飘渺的梦想变成活生生的现实(冯志伟 2004:40 - 49) 。 下面是谷歌神经机器翻译与基于短语的机器翻译的翻译质量比较图 。
本文插图
从图32中可以看出 , 谷歌神经机器翻译的水平已经大幅度地超过基于短语的机器翻译 , 特别在英语—西班牙语、英语—法语、西班牙语—英语、法语—西班牙语的机器翻译中 , 神经机器翻译正在向人的翻译水平逼近 , 当然离完美无缺的翻译还有一定的距离 。 由于神经机器翻译使用大规模平行语料库的数据来获取语言知识 , 所以可极大地提高机器翻译的水平 , 有力地推动机器翻译实用化和商品化的进程(冯志伟 2017:723-768) 。 神经机器翻译和统计机器翻译都使用经验主义的方法 , 它们都须要大规模语言数据的支持 。 与统计机器翻译相比 , 语料库的数据规模对于神经机器翻译质量的影响更为明显 , 神经机器翻译需要更大规模的语料库数据资源的支持(Koehn , Knowles 2017:142-147) 。
推荐阅读
- act视觉系统设计|机器视觉在线检测汽车零件的位置和朝向
- 新资讯|“坏机器人”向消除种族歧视组织捐赠1000万美元
- 神经|坤鹏论:人类是机器吗?
- 雨融YUKON|成本3.5万亿的未来城市:打算靠机器人维护,为建城2万人被迫搬离
- |我省首例!脑部手术没开颅,机器人辅助成功治疗三叉神经痛
- 吃货峰子|刚知道,大街上卖麻油,虽然闻着香,原来猫腻在机器里,幸好没买
- 广州会展通|73岁日本情色艺术大师,“机械姬”迷倒众人,第一次对机器人有了非分之想
- 育儿专家育儿教子|婆婆还要求生三胎怎么办?女人不是生育机器,自己的肚子自己做主
- 机器|写作者如何骗过机器审核?很多自媒体写作者苦恼于机器审核,把关过严,甚至把一些稍微带有敏感字眼的文章给枪毙了,弄得写作者本人很沮丧。那
- 奚梦瑶|豪门梦破碎?沦为生子机器?奚梦瑶为何因为穿橙色衣服被骂上热搜
