机器|冯志伟|罗塞塔石碑与机器翻译( 七 )


机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

等式(5)的左边表示在给定一个目标语言句子的情况下生成一个源语言句子及其对齐关系的概率 。 在计算这个概率时 , 我们首先根据已有的目标语言句子的知识 , 考虑源语言句子长度的概率(等式右边的第一项) , 然后在给定目标语言句子和源语言句子长度的情况下 , 再选择目标语言句子中与源语言句子的第一个单词的位置以及对齐的概率(等式右边乘积中的第一项) , 之后再考虑给定目标语言句子和源语言句子的长度 , 并且在目标语言句子与源语言句子的第一个单词对齐的情况下 , 计算源语言句子中第一个单词的概率(等式右边乘积中的第二项) 。 依此类推 , 分别计算源语言句子的第二个单词的概率、第三个单词的概率 , 等等 。 这样 , 等式P(S , A|T)总可以被变换成像(5)中的等式那样多个项相乘的形式(Yamada , knight 2001:10-12) 。
IBM公司首先使用统计方法进行法语到英语的机器翻译 , 对于翻译模型P(S|T) , 由于S是法语(French) , T是英语(English) , 因此他们用P(F|E)来表示;对于语言模型P(T) , 由于T是英语 , 因此他们用P(E)来表示 。
图28是从噪声信道理论来看IBM公司的法英机器翻译系统的一个示例 。 可以假定一个英语的句子The program has been implemented , 从英语的信道(channel source E) 经过噪声信道(noisy channel)之后在法语的输出信道(channel output F)中变成一个法语的句子Le programme a été misen application.从翻译的角度看 , IBM公司的法英统计机器翻译的任务就是从源语言法语F的句子出发 , 建立翻译模型P(F|E)和语言模型P(E)进行解码 , 选出最好的英语句子作为输出 , 最后得到英语的译文(冯志伟 2015: 546-554)。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

统计机器翻译的质量与双语语料库训练语言模型的数据规模有明显的关系 , 双语语料库的数据规模越大 , 统计机器翻译的质量越高 。 图29显示阿拉伯语-英语的统计机器翻译系统的质量与-双语语料库训练语言模型数据规模之间的关系 , 横轴表示双语语料库规模的大小 , 纵轴表示统计机器翻译系统质量的水平 。 从图中可以看出 , 随着双语语料库数据规模的增大 , 统计机器翻译系统的质量也逐渐地、平稳地提高 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

自2006年以来 , 统计机器翻译进一步发展成神经机器翻译(Neural Machine Translation , 简称NMT) , 也是基于大规模的双语或多语平行语料库数据 。 谷歌公司(Google)研制成谷歌神经机器翻译系统(Google Neural Machine Translation , 简称GNMT) , 其翻译原理如图30所示:
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

在图30中 , e表示源语言英语 , f表示目标语言法语 , 要把e翻译为f , 需要通过一个多层次的神经网络(multi-layer neural network) , 这个多层次的神经网络从平行语料库中获取知识 , 把语言序列e翻译成语言序列f.例如 , 把英语的语言序列Economic growth has slowed down in recent years(近年来经济增长放慢了速度)翻译成法语的语言序列La croissanceéconomiques’ estralentiecesdernières années.其中 , 计算机进行翻译的时候 , 要利用已有的大规模的平行语料库来进行深度学习(deep learning) , 从平行语料库中自动地获取语言特征(language features) 。 大规模的平行语料库也就是大数据(big data) , 所以 , GNMT是一个基于大数据的神经机器翻译系统 。 神经机器翻译系统就是基于大数据的、使用神经网络来实现翻译的机器翻译系统 。 在这个多层次的神经网络中 , 有大量的链接权重(weight) , 这些权重就是我们通过大规模平行语料库的训练和学习的参数 。 训练好的神经网络可以将输入的源语言英语e转换为输出的目标语言法语f.图中的log p(f|e)表示对于给定的源语言e转换为目标语言f的概率 , 如果这个概率越大 , 说明神经机器翻译的效果越好 , 我们的目的在于尽量得到log p(f|e)的一个大的参数近似值(parametric approximation) , 这就是GNMT的语言模型(李沐等 2018:153-174) 。


推荐阅读