机器|冯志伟|罗塞塔石碑与机器翻译( 六 )


假定我们有3组法语短语la maison , la maison bleue , la fleur它们与3组英语短语对应 , 从理论上来说 , 在每一组中的每一个单词 , 都可以与同一组中另一种语言所有的单词相对应 , 这种复杂的对应关系如图25所示:
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

我们观察到 , 法语的la和英语的the在每一组中都同时出现 , 它们同时出现的频度最大 , 因此 , 法语的la应当与英语的the对齐 。 法语的maison与英语的house在两组中同时出现 , 它与英语的the也在两组中同时出现 , 但由于英语的the已经与法语的la相对应 , 它不可能再与法语的maison对应 , 因此我们可以判断 , 法语的maison应当与英语的house对齐 。 在第二组la maison bleue中 , la和maison都已经确定英语的对应单词分别为the和house , 因此bleue应与英语的blue对齐 。 在第三组la fleur中 , 既然法语的la已经与英语的the相对应 , 那么 , fleur应与英语的flower对齐 。 由此 , 我们不难得出如下的对齐结果(参见图26):
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

在统计机器翻译中 , 我们使用“期望最大”(Expectation Maximization , 简称EM)的算法来发现上述隐藏在两种语言结构中单词之间的对应关系 , 进行单词对齐;这种算法可以通过GIZA++软件来实现 。 上面是一对一的对齐 , 我们须要再进一步讨论比较复杂的对齐情况 。 在句子偶对And the program has been implemented|Le programme a étémis en application中 , 单词的对齐关系如图27所示:
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

在法语句子中 , 英语的and没有相应的对应单词 , 这是“一对零”的情况;而英语单词implemented则对应3个法语单词mis en application , 这是“一对多”的情况 。 如果从法语的角度来看英语 , 在表示这种对齐关系时 , 只须在英语的相应单词上标上法语单词的编号 , 用布劳恩的表示方法 , 其对齐情况可以表述为:
(Le programme a étémis en application|And the (1)program(2)has(3)been(4)implemented(5,6,7))
由于英语的and在法语句子中没有对应的单词 , 因此and后面没有出现相应的数字 。 这是“一对零”的情况 。 实际上 , 在两种语言的翻译中 , 单词之间除“一对一”“零对一”“一对零”的情况外 , 还有“一对多”“多对一”“多对多”的情况 , 所以单词对齐是一个非常复杂的问题 。 在目标语言句子T的长度为l(包含1个单词) , 源语言句子S的长度为m(包含m个单词)的情况下 , T和S之间有l × m种不同的对应关系 。 在使用解码器进行搜索时 , 要在所有的t l1中 , 搜索使P(tl1) × P(sm1|t1l)最大的结果 , 经过适当的变换处理后 , 最后输出目标语言的句子 。 由此可见 , 在统计机器翻译中 , 单词的对齐是一个关键性的问题 。 为此引入隐含变量A , 这个隐含变量表示对齐A , 这样翻译句子偶对(S|T)的概率可以通过条件概率P(S , A|T)而得到 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

我们把P(S|T)的计算转化为对P(S , A|T)的估计 。 假设源语言句子S=s1m=s1s2...sm有m个单词 , 目标语言句子T=tl1=t1t2...tl有l个单词 , 对齐序列表示为A=a1m=a1a2...am.其中 , aj(j=1 , 2 , ...m)的取值范围为0到l之间的整数 , 如果源语言中的第j个单词与目标语言中的第i个单词对齐 , 则aj=i , 如果没有单词与它对齐 , 则aj=0 。 例如:


推荐阅读