人工智能|声纹商战正当年( 二 )



我记得非常清楚 , 当时我们两位同事去印尼采集数据时看到 , 即使是雅加达(印尼首都) , 交通也是非常不方便 , 老人家用传统现场验证的方法领取养老金虽然一定程度上避免了冒领骗保问题 , 却给这些老人带来诸多不便 。
他们有的已经七八十岁 , 有的人甚至还坐着轮椅……
他们回来后 , 发自内心地和我说:我们这个项目就算不赚钱也要把它做好 。
正是这样的原始驱动力 , 让张伟彬和他的团队开始在这一项目中全力奋战 。
在实际深入到这一项目后 , 张伟彬和他的团队感受到了声纹识别技术在落地过程中实实在在遇到的三个难题:
第一 , 噪声 。 这个问题虽然算不上特别 , 在任何场景下做语音技术都不可避免会遇到 , 但对识别准确率还是会造成影响;
第二 , 极短语音文本声纹比对 。 在这个项目中 , 认证时 , 居民需要对着手机念出手机界面上随机出现的12个印尼数字 , 然后系统会同时验证内容和声纹 , 12个数字大概需要三四秒 , 需要用这么短的语音比对出是否是本人;

第三 , 跨信道 。 现场注册时 , 居民用的是拾音效果较好的专业麦克风 , 日常认证用的则是普通电话上的麦克风 , 传统固定电话采样率又有所受限 , 4kHz采样的语音数据 , 这就形成鲜明对比——原始声音是高质量的声音信息 , 验证的时候由于传输信道比较恶劣 , 声纹信息质量就会下降 , 这也是一方面挑战 。
经过5个月的奋战 , 通过在前端信号处理及声纹特征提取应用自研的AI算法模型 , 张伟彬和他的团队将这一系统声纹识别实测准确率达到99.7% 。
最终 , 在2018年5月 , 这一系统正式上线 , 开始服务250万印尼退休人员——他们每个月只需要通过手机APP在家中就能实现在线认证 。
可以说 , 印尼社保年审项目让声扬科技赚到了第一桶金 , 同时也让他们在心底确信了声纹等语音技术能做一些对社会真正有意义的事情的想法 。
张伟彬告诉雷锋网 , 直到现在 , 我们公司照片墙上还有不少当时留下的照片 , 大家都觉得“这个项目很有意义” 。
人工智能|声纹商战正当年
本文插图

声扬科技现场采集老人声纹

正因如此 , 当2018年6月 , 李亚桐、陈东鹏、张伟彬几人就前期声纹识别、语音识别、语音信号处理等几个方向的探索进行复盘、决定未来公司大方向时 , 大家很默契地一致认为——声纹识别应该作为接下来这一阶段的主要战略方向进行投入 。
方向:哪里是起点?
复盘时 , 其实除去上述原因 , 声扬科技的创始团队也仔细梳理了语音技术的商业逻辑:
我们知道 , 语音是用来交流的 , 所以它里面包含了很多的信息 , 包括情感内容、年龄、语种等信息 , 但是这当中最重要的其实还是人的身份信息 。
同样一句话 , 工程师说出来的可能是“建议” , CEO说出来的可能是“决策” 。
我们当时觉得 , 语音是人类独有且最常用的沟通方式 , 未来也会是重要的人机交互方式之一 。 人类语音承载着身份、年龄、性别、情绪、意愿等丰富的信息 , 要把这么多的信息串联、组织、管理、应用起来 , 前提是先识别出说话人的“身份” , 这也使得我们果断地选择了以声纹识别技术作为切入点 。
此前 , 在智能语音领域已经有几家被市场看好的企业颇具规模 , 声扬科技还有机会吗?

张伟彬告诉雷锋网 , 其实传统语音公司的强项在于语音识别、自然语言处理 , 就声纹识别技术而言 , 声扬科技具有领先性 。
这可以从2019年全球声纹识别大赛中他们拿下全球第二、亚太区第一的比赛成绩看出 , 也在他们拿下被大家戏称为“宇宙第一行”——中国工商银行(以下简称:工行)的声纹识别项目中具体体现 。
工行大考:真正的战役


推荐阅读