『智能相对论』跨越语音日均请求10亿次的山和大海,百度输入法的“平凡之路”


『智能相对论』跨越语音日均请求10亿次的山和大海,百度输入法的“平凡之路”
本文插图
文 | 魏启扬
来源 | 智能相对论(ID:aixdlun)
2020年的春节假期因为新冠疫情给所有人来了个措手不及 , 大量“云”服务被激活 , 作为在线沟通工具的输入法首当其冲 , 成为特殊时期接受考验的中坚力量之一 , 特别是语音输入能力 , 更是成为用户评价输入法是否好用的重要维度 。
近日 , 百度输入法公布 , 自1月25日春节假期以来 , 百度输入法日均语音请求量突破10亿次大关 , 再创行业历史新高 。
在很多人看来 , 这只不过一个数字而已 , 但很多年后 , 我们再来回首 , 日均10亿次的语音请求量或将成为推动输入法形态和操作方式变革的一个标志 。
一、10亿次 , 必然是高流量和高标准的双重满足
回到百度输入法日均语音请求突破10亿次事件本身 , 我们需要回答两个问题 , 为什么会产生如此高的数据流量?完成这样的任务又需要具备哪些素质?
第一个问题很好回答 , 上文提到特殊时期各种“云”服务被激活 , 线上沟通需求呈指数级增加 , 输入法的使用频率由此被抬升 , 此时比传统键盘打字更快 , 还不用动手 , 更不用学习拼音、五笔这类输入规则的语音输入表现出非常大的优势 , 输入法语音请求量刷新历史记录也就不足为奇了 。
只是在创造语音请求新纪录之前 , 输入法需要解决自己的流量承受能力 , 毕竟日均10亿次的请求流量不是一个小数字 , 好在经受过“春晚红包”考验的百度是见过“世面”的 , 甚至还有很大余地接下更大的流量压力 。
第二个问题的核心关键在于输入法不但要能用、好用还需要用户喜欢用 。
『智能相对论』跨越语音日均请求10亿次的山和大海,百度输入法的“平凡之路”
本文插图
首先 , 在技术层面 , 准确率是无法绕开的基础门槛 。
作为一种输入方式 , 让用户愿意使用 , 首要满足条件是准确率 , 即精准理解用户的意图并将其表达出来 。
键盘打字输入能够成为主流输入方式 , 很大原因在于用户的一字一句被完全复刻 , 输入结果精准且高效 。
相比之下 , 语音输入需要经过机器“识别”到“翻译”再到呈现的过程 , 输入链条被拉长 , 如果技术不够完善 , 不但不能完成实时语音交互任务 , 而且只要其中任何一个环节出现问题 , 都会影响到最终的输入结果 , 准确度难以保证 。
百度去年发布的流式截断多层注意力建模(SMLTA) , 则实现了中文在线语音识别的两大突破:世界上首次实现了局部注意力建模识别精度超过全局注意力模型;世界上第一次大规模部署在线语音交互注意力模型 。
也正是凭借着这一技术 , 百度解决了传统Attention模型在识别中的时延性 , 以及因此导致的无法进行大规模在线语音实时交互的问题 , 将百度输入法在线语音识别精度提升了15% , 超越行业最高水平15% 。 同时在离线语音识别方面 , 即使用户处于地铁、电梯、隧道或者人流密集等离线场景中 , 百度输入法依然可以提供准确率超过98%的语音输入服务 。
其次 , 在用户层面 , “懂你”比“给你”更重要 。
准确率是满足用户需求的基础门槛 , 但这也只是解决了“能用”的问题 , 要想让用户爱用 , 并形成使用习惯 , 那就要求输入法要“懂”用户 。
如何理解?
说话时口语化怎么办?说话习惯中英夹杂怎么办?说话有方言口音又怎么办?这些情况下 , 输入法都能识别清楚吗?
很明显这类说话习惯一旦养成 , 在短时间内既难纠正 , 更难改变 , 特别是一些年长用户 , 让他们改变几十年来形成的口音 , 基本是一个不能完成任务 , 这时就要求输入法不能只是被动的向用户提供自己的输入能力 , 而要主动“迁就”用户 , “听懂”用户的意图 。


推荐阅读