『智能相对论』跨越语音日均请求10亿次的山和大海,百度输入法的“平凡之路”( 二 )


百度输入法的“方言自由说”和“中英自由说”两大功能就是这一产品设计思维下的产物 。
前者是通过技术优化 , 将普通话和六大方言融合成了一个语音识别模型 , 实现方言与方言、方言与普通话的混合语音输入 , 这也使百度输入法成为首个实现方言免切换语音输入的输入法产品 。
后者可以在完全不影响中文语音输入准确率的情况下 , 实现高精准中英文混合语音识别输入 。
在去年的百度AI开发者大会上 , 百度输入法面对了一段高难度“Rap”识别挑战:“你的这个新model效果比baseline好多少 , 探索技术的depth和scope是我们的责任 , 我很喜欢barrier这个词 , AI的value其实就是break barrier” 。
这段中英混杂的文字 , 即便读出来也需在脑中回旋许久才能领会意思 , 但百度输入法在现场却零误差的识别出来了 , 不但准确理解还根据语义进行了正确断句 , 并且以非常快的速度上屏呈现结果 。
『智能相对论』跨越语音日均请求10亿次的山和大海,百度输入法的“平凡之路”
本文插图
最后 , 在创新层面 , 总能给用户带来惊喜 。
上文提到的无论是流式截断多层注意力建模(SMLTA) , 还是“方言自由说”和“中英自由说”两大功能 , 都是百度输入法的创新成果 。 很明显 , 因为创新给用户带来体验提升的同时 , 也带来了愉悦与惊喜 , 并因此完成了用户的拉新与留存 。
偶然使用过百度输入法用户 , 体验过创新功能后 , 由路转粉;百度输入法的老用户 , 在经历了输入法的持续迭代进化 , 一直处于对下一次创新功能的期待中 , 进而成为铁粉 。
目前我们看到的百度输入法呈现在外好像只是单纯的声音到文字的转换 , 但事实上 , 百度输入法已经成为软硬一体、语音语言一体 , 识别和交互一体的复杂应用 。
综上而言 , 达成10亿次成就 , 除了有深厚的技术实力作为支撑和保障 , 还需有技术温度 , 带来“人情” , 感知“冷暖” 。
二、打开AI的魔盒 , 我们到底需要怎样的输入法?
我们注意到 , 随着AI开始进入工业大生产阶段 , 输入法的形态和模式也开始发生变化 , 从键盘打字输入到语音输入 , 我们看到的只是其中的一个表象 , 在AI的驱动下 , 输入法正由内向外在更多维度发生着变化 。
在讨论输入法形态变化之前 , 我们需要理解输入法进化的原因 。
首先 , 用户需求和场景倒逼 , 键盘打字输入已经out了 。
在互联网时代 , 输入法只出现在PC端 , 使用场景单一 , 输入法厂商只需保证输入结果的准确和快捷即可具备较强的竞争力 。
进入移动互联网时代 , 用户使用的智能终端变多 , 使用场景也更加丰富起来 , 这就要求输入法不光要适用不同终端的使用习惯 , 还需适应不同场景的使用需求 , 因而在操作方式上不再局限于键盘打字输入 , 语音输入方式成为一个非常重要的能力被提炼出来 。
像此次疫情 , 语音输入方式除了场景倒逼之外 , 用户希望更快、更便捷的输入体验升级 , 也推动着传统输入法做出改变 。
可以预测 , 当我们进入物联网时代后 , 还会有更多的输入方式出现 。
其次 , 拥有AI内核的输入法变得无处不在无所不能 。
输入法自身也一直在寻求进化迭代 , 只是我们所说的输入技术并非只局限于提高输入法准确性的基础能力 , 而是通过AI技术的赋能 , 创新输入法产品形式 , 让用户获得更好的使用体验 。
像百度输入法基于NLP、图像识别、AR等技术 , 推出了NLP整句预测、AI斗图、神句配图、皮肤主体C位识别等功能 , 成为业内首家实现多场景整句智能预测的输入法产品;去年发布的AI探索版 , 还创新性的推出全语音交互的产品新形态和凌空手写等领先的AI功能 。
用户需求和使用场景的变化 , 任何一个输入法产品都能掌握 , 但能否根据这些变化做出应对 , 则非常考验产品在“输入”之外的能力 。 一为行业进化趋势的洞察力 , 一为支持产品迭代的技术储备力 。


推荐阅读