Google|Google Translate 的新改进( 二 )


尽管 BLEU 分数是一个众所周知的近似度量 , 但众所周知 , 对于已经高质量的系统来说 , 它有各种各样的缺陷 。例如 , 有几部作品演示了在源语言或目标语言上的翻译语效应如何影响 BLEU 分数 , 在这种现象中 , 翻译的文本可能听起来很别扭 , 因为其中包含源语言的属性(如词序) 。基于这个原因 , 我们对所有的新模型进行了并排的评估 , 结果证实了在蓝带的效果 。
除了总体质量的提高之外 , 新模型对机器翻译幻觉的鲁棒性也有所增强 。机器翻译幻觉是指当输入无意义的信息时 , 模型会产生奇怪的“翻译” 。对于那些在少量数据上进行训练的模型来说 , 这是一个常见的问题 , 并且会影响许多低资源语言 。例如 , 当考虑到泰卢固语字符的字符串“???????????????” , 旧的模式产生了荒谬的输出“深圳肖深圳国际机场(SSH)” , 似乎试图理解的声音 , 而新模型正确学会直译为“Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh” 。
结论
尽管对于机器来说 , 这些都是令人印象深刻的进步 , 但我们必须记住 , 特别是对于资源较少的语言 , 自动翻译的质量远远不够完美 。这些模型仍然是典型的机器翻译错误的牺牲品 , 包括在特定类型的主题(“领域”)上表现不佳 , 合并一种语言的不同方言 , 产生过多的字面翻译 , 以及在非正式语言和口语上表现不佳 。
尽管如此 , 通过这次更新 , 我们很自豪——提供了相对连贯的自动翻译 , 包括支持的 108 种语言中资源最少的语言 。我们感谢学术界和工业界的机器翻译研究人员所做的研究 。
致谢
【Google|Google Translate 的新改进】这一成果基于以下这些人的贡献:Tao Yu, Ali Dabirmoghaddam, Klaus Macherey, Pidong Wang, Ye Tian, Jeff Klingner, Jumpei Takeuchi, Yuichiro Sawai, Hideto Kazawa, Apu Shah, Manisha Jain, Keith Stevens, Fangxiaoyu Feng, Chao Tian, John Richardson, Rajat Tibrewal, Orhan Firat, Mia Chen, Ankur Bapna, Naveen Arivazhagan, Dmitry Lepikhin, Wei Wang, Wolfgang Macherey, Katrin Tomanek, Qin Gao, Mengmeng Niu, 和 Macduff Hughes.


推荐阅读