机器|冯志伟|罗塞塔石碑与机器翻译( 四 )
本文插图
在句子9中 , 我们还可以发现Centauri语中的ok-yurp与Arcturan语中的at-yurp是同源词 , 而Centauri语中的kantok对应于Arcturan语中的oloat 。 最后 , 我们得到Centauri语和Arcturan语这两种语言的单词对应关系 , 实现单词对齐(参见图21) 。
本文插图
在使用解读密码的方法获得Arcturan语的对应单词之后 , 我们再进一步进行Arcturan语的句法生成和形态生成 , 就可以得到通顺的机器翻译译文 。 这种“解读密码”的方法实质上是一种统计的方法(statistical approach) , 实施起来要进行大量的数学运算 , 使用基于统计的方法来解决机器翻译问题(冯志伟 2013:19-24) 。 这个简单的例子说明 , 使用平行语料库进行机器翻译是可能的 。 现在 , 我们已经有高性能的计算机和大规模的联机语料数据 , 计算机在速度和容量上都有大幅度的提高 , 因此在20世纪90年代 , 兴起统计机器翻译(statistical Machine Translation , 简称SMT) 。 根据上述解读密码的思想 , IBM公司的布劳恩(P. F. Brown)等人提出统计机器翻译的数学模型(mathematical model) 。 基于统计的机器翻译把机器翻译问题视为一个“噪声信道”(noisy channel)问题 , 如图22所示:
本文插图
统计机器翻译的过程是:一种语言S由于经过一个噪声信道而发生扭曲变形 , 在信道的另一端呈现为另一种语言T , 翻译问题实际上就是如何根据观察到的语言T , 恢复最为可能的语言S 。 语言S是信道意义上的输入(源语言) , 在翻译意义上就是目标语言 , 语言T是信道意义上的输出(目标语言) , 在翻译意义上就是源语言 。 从这种观点来看 , 一种语言中的任何一个句子都有可能是另外一种语言中的某几个句子的译文候选者 , 只是这些句子的可能性各不相同 , 机器翻译就是要从大量的候选句子中找出其中可能性最大的句子 , 也就是从所有可能的目标语言S的句子中计算出概率最大的一个句子作为源语言T的译文(Brown et al. 1990:33-35) 。
由于S的数量巨大 , 可以采用“栈式搜索”(stack search)的方法 。 栈式搜索的主要数据结构是表结构(list structure) , 在表结构中存放着当前最有希望的对应于T的S中的句子 , 算法不断循环 , 每次循环扩充一些最有希望的结果 , 直到表中包含一个得分明显高于其他结果的S的句子时结束 。 当然 , 这样的栈式搜索不能保证得到最优的结果 , 它可能会导致错误的翻译 , 因而只是一种次优化算法 。
可见 , 统计机器翻译系统的任务就是所有可能的目标语言T(这里指翻译意义上的目标语言 , 也就是噪声信道模型意义上的源语言)的句子中寻找概率最大的那个句子作为源语言S(这里指翻译意义上的源语言 , 也就是噪声信道模型意义上的目标语言)的翻译结果 , 其概率值可以使用贝叶斯公式(Beyesformula)得到(注意 , 下面公式中的T和S与上面的含义不一样 , 下面公式中的T是在翻译意义上的目标语言 , S是在翻译意义上的源语言) 。
本文插图
由于等式(1)右边的分母P(S)与T无关 , 因此 , 求P(T|S)的最大值相当于寻找一个最接近于真实的目标语言句子T的T^ , 使等式右边分子的两项乘积P(T)P(S|T)为最大 , 也就是:
本文插图
推荐阅读
- act视觉系统设计|机器视觉在线检测汽车零件的位置和朝向
- 新资讯|“坏机器人”向消除种族歧视组织捐赠1000万美元
- 神经|坤鹏论:人类是机器吗?
- 雨融YUKON|成本3.5万亿的未来城市:打算靠机器人维护,为建城2万人被迫搬离
- |我省首例!脑部手术没开颅,机器人辅助成功治疗三叉神经痛
- 吃货峰子|刚知道,大街上卖麻油,虽然闻着香,原来猫腻在机器里,幸好没买
- 广州会展通|73岁日本情色艺术大师,“机械姬”迷倒众人,第一次对机器人有了非分之想
- 育儿专家育儿教子|婆婆还要求生三胎怎么办?女人不是生育机器,自己的肚子自己做主
- 机器|写作者如何骗过机器审核?很多自媒体写作者苦恼于机器审核,把关过严,甚至把一些稍微带有敏感字眼的文章给枪毙了,弄得写作者本人很沮丧。那
- 奚梦瑶|豪门梦破碎?沦为生子机器?奚梦瑶为何因为穿橙色衣服被骂上热搜
