沫言|人工智能时代的中文和英文,谁能成为AI的母语?( 二 )


AI现在不能准确处理多音字 , 出错在所难免 。 难道为了AI准确 , 人类只能通过语言文字改革消灭多音字词?这工程也太大了 , 人类也很难适应这么大的改革!
同音字词 , 英文胜 。
四、多义字词
一词多义 , 是每种成熟语言都难免的 , 世间万事万物这么多 , 情感这复杂 , 如果每个词汇只表达一个准确的意思 , 那几百万字词都收不住 。 无论是中文还是英文 , 一个字词不会只表达一个意思 , 通常有很多意思 , 有时候区别还很大!
沫言|人工智能时代的中文和英文,谁能成为AI的母语?比如“close” , 其意思非常多:关闭、合拢、合上、不开放、(使)关门、关闭(一段时间)、结束、终结、接近、几乎(处于某种状态)、可能(快要做某事)、亲密的、密切的、接近、靠近、不远地、死胡同、断头路、大教堂所属的周围场地及建筑物等 。
现在人工智通过上下文识别词义的能力还比较弱 , 遇到多义词的时候经常出错 , 这也是人工智能发展的难关 。
多义字词 , 中文和英文彼此彼此 。
五、整段识别
沫言|人工智能时代的中文和英文,谁能成为AI的母语?让人工智能翻译一个短句 , 一句话 , 其实没多大意义 , 实用价值也不高 , 只有具备整段文字识别 , 才有实用价值 。 让我们以中英文互译来考察AI对中文和英文的识别能力了!
原文如下:
"Things that trend in these two countries are insanely different. For example: knowledge-basedcontent is extremely popular in China, and less so in the U.S. Also, this was wild to me: thosecreators that did the most dance videos in China are users born in the 60s (!!), whereas in theUS, it seems that it's mostly teenagers who are creating the dances," she wrote.
她写道:“这两个国家的趋势截然不同 , 比如:知识性内容在中国很流行 , 但在美国稍差一些 。 而且 , 这一点对我来说很疯狂:中国最喜欢拍舞蹈视频的是60后(!!) , 但在美国 , 好像是年轻人最喜欢拍舞蹈视频 。 ”
AI将“英文原文”翻译成中文如下:
“这两个国家的趋势截然不同 。 例如:以知识为基础的内容在中国非常受欢迎 , 而在美国却很少 。 此外 , 这对我来说很疯狂:在中国制作舞蹈视频最多的创作者是 她出生于60年代(!!)的用户 , 而在美国 , 似乎是大多数年轻人在创作舞蹈 。 ”她写道 。
有一句失真比较严重:“在中国制作舞蹈视频最多的创作者是 她出生于60年代(!!)的用户 。 ”
这句话的英文原文是: “those creators that did the most dance videos in China are users born in the 60s ” 。 这是一句英语长句 , 词序比较复杂 , 又夹杂了乱七八糟的介词 , 导致人工智能的大脑错乱 , 没能准确识别!
沫言|人工智能时代的中文和英文,谁能成为AI的母语?这个英文识别错误很有典型性 , 暴露了英文在语法上、词序上太过复杂的弊端 。 如果是翻译更复杂的英语长句 , AI将束手无策!这也是每个表音文字的弱点!
AI将“中文原文”翻译成英文如下:
"The trends in these two countries are quite different. For example, intellectual content is very popular in China, but a bit worse in the United States. Moreover, this is crazy to me: China’s favorite dance video is born in the 60s (! !), but in the United States, it seems that young people like to shoot dance videos the most," she wrote.


推荐阅读