量子位 买它,华少别抢话,丁磊:噢买尬( 二 )


量子位 买它,华少别抢话,丁磊:噢买尬
文章图片
Round3:极限挑战
看来面对纸质出版物 , 甚至是它们的电子版 , 有道词典笔专业版都没有在怕的 。
那么 , 当需要翻译的文字打印在瓶瓶罐罐的非平面包装上 , 它还能继续跟拍照翻译App竞争吗?
比如 , 这样一瓶卸妆水 。
量子位 买它,华少别抢话,丁磊:噢买尬
文章图片
即使是对于以镜头来捕捉文字内容的拍照翻译App , 这样的柱形表面也不太友好 。
只能是想看哪一句 , 就尽量把镜头调整到其正对面 。
量子位 买它,华少别抢话,丁磊:噢买尬
文章图片
那么有道词典笔表现又如何呢?
量子位 买它,华少别抢话,丁磊:噢买尬
文章图片
识别成功!并且继续发挥了哪里不会扫哪里的特长 。
不过 , 在这种情况下 , 词典笔的识别确实没有平面上那么丝滑 。 滑动太快的话 , 会出现还没有扫完 , 输入就断掉的情况 。
三轮测试下来 , 稍稍总结一下 。
无论是纸质出版物还是电子出版物 , 在阅读场景中 , 网易有道词典笔专业版的优势十分明显 。 符合使用习惯 , 反应速度很快 , 翻译质量过关 。
具体使用起来也很方便 , 提笔就能使用 。 上一秒查英语 , 下一秒换日语 , 也不用调整设置 。
而推及到其他应用场景 , 相比于翻译质量并不稳定的拍照翻译 , 只要文字能扫得进去 , 词典笔的表现就可圈可点 。
不过 , 出门在外 , 有一些场景下 , 拍照翻译的功能还是词典笔所无法替代的 , 比如:
量子位 买它,华少别抢话,丁磊:噢买尬
文章图片
背后的技术
这么看下来 , 是不是觉得AI词典笔这样的硬件产品 , 还真有两下子?
那么 , 我们照例扒一扒产品背后的技术 。
其实 , 在测试环节中不难看出 , 网易有道词典笔专业版 , 最核心的AI技术包括:OCR(光学字符识别)和NMT(神经网络翻译) 。
OCR:一扫就能查单词
根据有道官方数据 , 有道词典笔的扫描速度最快可达240mm/s , 相当于1秒最多可以识别40个汉字 。
并且 , 平均识别准确率可以达到96.8% , 最高识别准确率超过了98.5% 。
这就有赖于网易有道基于神经网络的OCR技术 。
2017年开始 , 网易有道就上线了卷积神经网络+循环神经网络的OCR引擎 , 支持26种语言文字识别 , 也能进行语种自动判别和混合识别 。
实际上 , 词典笔的笔头就是一个高速摄像机 , 能在用户提笔扫描单词的时候 , 每秒拍摄100多张图像 。
量子位 买它,华少别抢话,丁磊:噢买尬
文章图片
然后 , 通过图像配准、图像融合和文本切行 , 实现自适应全场景文本图像拼接 。
量子位 买它,华少别抢话,丁磊:噢买尬
文章图片
并且 , 通过流式识别计算 , 在扫描拼接图像的同时 , 就将内容提取出来 , 交由神经网络翻译 。
NMT:换行整句话翻译
除了原有的高中生词典、汉英大词典、SSAT、SAT、GRE、托福、雅思、现代汉语规范词典、有道汉英释义、有道汉语释义、有道简明释义外 , 有道词典笔专业版现在还新增了牛津高阶英汉双解词典第七版 , 累积近240万超大词库 。
词库巨大 , 查词准确 , 但想要实现整句离线翻译 , 还是需要神经网络的加持 。
网易有道的NMT模型主要采用Transformer架构 , 并通过模型压缩+离线推断框架的方式 , 精简为离线端模型 。
据官方数据 , 部署在有道词典笔上的离线NMT模型 , 一秒钟可以翻译30个汉字 , 并且离线翻译的结果接近联网水平 。
量子位 买它,华少别抢话,丁磊:噢买尬


推荐阅读