机器|冯志伟|罗塞塔石碑与机器翻译( 九 )


机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

在图33中 , 横轴表示语料库数据规模(Corpus Size)的大小 , 也就是语料库中包含英语单词(English Words)的数量 , 纵轴表示机器翻译自动评测指标BLEU值(Bi-Lingual Evaluation Understudy) , 也就是机器翻译系统质量的水平 。 从图33中可以看出 , 在基于短语的统计机器翻译系统中 , 当语料库数据的规模为106个单词时 , 它的BLEU值为18.1;当语料库数据的规模为107个单词时 , 它的BLEU值平稳地上升为23.5;当语料库数据的规模为108个单词时 , 它的BLEU值进一步平稳地上升为26.9;在带有大规模语言模型基于短语的(Phrase-based with Big LM)统计机器翻译系统中 , 当语料库数据的规模为106个单词时 , 它的BLEU值为23.4;当语料库数据的规模为107个单词时 , 它的BLEU值平稳地上升为27.9;当语料库数据的规模为108个单词时 , 它的BLEU值进一步平稳地上升为29.6;随着语料库数据规模的逐渐增大 , 统计机器翻译系统的质量也平稳地提高 。 在神经机器翻译系统中 , 当语料库数据的规模为106个单词时 , 它的BLEU值仅仅为7.2;当语料库数据的规模为107个单词时 , 它的BLEU值大幅度地猛增为22.4;当语料库数据的规模为108个单词时 , 它的BLEU值又进一步大幅度地猛增为29.2 , 随着语料库规模的增大 , 神经机器翻译系统质量的提高幅度远远地大于统计机器翻译系统质量的提高幅度 。 这说明 , 语料库数据规模的大小对神经机器翻译系统的影响比对统计机器翻译系统的影响大得多 。 如果语料库数据规模小于107个单词 , 神经机器翻译的质量就比不上统计机器翻译;当语料库数据规模达到108个单词时 , 神经机器翻译的质量与统计机器翻译的质量大致持平;而当语料库数据规模超过108个单词时 , 神经机器翻译的质量才有可能超过统计机器翻译 。
据统计 , 现在世界上的语言有7000种之多 , 但其中只有少量的主流语言(如英语、汉语、西班牙语、法语、德语、俄语等)拥有丰富的数据资源 , 因此这些主流语言的神经机器翻译的效果都不错 。 2017年国际机器翻译会议(WMT)对新闻文本的神经机器翻译系统进行评测 , 评测结果以直接评估(Direct Assesment , 简称DA)的分数来表示 。 其中 , 主流语言之间神经机器翻译的DA得分都比较高 。 例如 , 汉英神经机器翻译系统和英汉神经机器翻译系统的DA得分都是73% , 德英神经机器翻译系统的DA得分是78% , 英德神经机器翻译系统的DA得分是73% , 俄英神经机器翻译系统的DA得分是82% , 英俄神经机器翻译系统的DA得分是75% , 法语和西班牙语与英语之间的神经机器翻译系统由于已经比较成熟 , 没有参加这次评测 。 显而易见 , 世界上主流语言之间的神经机器翻译已经取得可喜的成绩 。 然而 , 世界上其他大多数语言都没有丰富的数据资源 , 处于语言数据匮乏的状态 , 要对这些语言进行神经机器翻译就非常困难 。 在2017年国际机器翻译会议评测中 , 凡是涉及非主流语种(如芬兰语、土耳其语、拉脱维亚语、捷克语)的神经机器翻译系统的DA得分都不理想 。 英语到芬兰语、土耳其语、拉脱维亚语的神经机器翻译系统的DA得分都不到60% , 英语到捷克语神经机器翻译系统的DA得分勉强达到62% 。 可见 , 如果没有丰富的语言数据资源的支持 , 世界上大多数的语言都难以使用神经机器翻译技术 , 语言数据的匮乏成为神经机器翻译发展中的一个严重问题 。 我国有56个民族 , 少数民族的语言有八十多种 , 少数民族的文字有30种 , 除了汉语之外 , 其他语言文字(如维吾尔语、哈萨克语、藏语、彝语)都处于数据匮乏的状态 。 在目前的技术水平下 , 要对这些数据匮乏的语言进行神经机器翻译仍然非常困难 。 如果涉及到专业翻译 , 数据匮乏的问题就更加严重 。 以医疗专业为例 , 在2019年国际机器翻译会议的评测中 , 用于训练医疗专业神经机器翻译系统的数据资源显得十分匮乏 。 德/英:英/德(de/en:en/de)机器翻译系统只有3,669个文档 , 包括40 , 398个句子;西/英:英/西(es/en:en/es)机器翻译系统只有8626个文档 , 包括100 , 257个句子;法/英:英/法(fr/en :en/fr)机器翻译系统只有5 , 640个文档 , 包括75 , 049个句子;葡/英:英/葡(pt/en:en/pt)机器翻译系统只有4 , 185个文档 , 包括49 , 918个句子;而汉/英:英/汉(zh/en:en/zh)机器翻译系统几乎找不到医疗专业的数据资源 。 而用于测试医疗专业神经机器翻译系统的数据资源只有50个文档 , 包括283至719个句子 , 只有西/英:英/西(es/en :en/es)机器翻译系统有6 , 624条术语 , 其他语种根本就没有术语数据的支持 。 在这些语言对中 , 每对语言用于训练的语料数据包含的单词量都远远少于108个单词 , 因而难以保证神经机器翻译的质量 , 所以机器翻译的译文质量不佳 。


推荐阅读