人工智能|讯飞连发三款智能录音笔!可离线转写拍视频秒配字幕,首推智能TWS耳机( 二 )
本文插图
实际上 , 讯飞录音笔还采用了前端降噪技术 , 基于自研神经网络与传统信号处理深度结合的降噪算法 , 不仅能有效降低环境干扰噪声 , 还可消除干扰说话人的声音 , 从而大幅降低语音识别的处理难度 。
据了解 , 该技术使讯飞录音笔在无喇叭的情况下 , 3-10米远距离转写效果提升30%;有喇叭的情况下 , 超远距离演讲场景转写效果为90%以上 , 这也体现了讯飞在远距离降噪转写技术上的领先性 。
针对多人交谈会议场景 , 讯飞录音笔上线了其与ASR联合建模的说话人分离方案 。
此外 , 三款讯飞录音笔升级了6项智能编辑功能:
智能语义分段:根据语义上下文进行分段 , 提升用户针对转写文档的浏览体验;
自动区分讲话人:根据录音及转写结果自动区分标注讲话人 , 针对多人讨论场景 , 用户还可快速检索目标说话人数据;
口语规整:可过滤语气词、重复词、无意义词 , 优化转写内容;
智能摘要:对录音内容进行全面的语义理解与分析 , 自动抽取关键信息 , 形成摘要结果;
个人词库:用户可提前输入专属词汇 , 实现转写时的智能编辑优化;
文件分享:支持文件分享功能 , 用户可自定义多种导出格式或模板 , 同时在文件编辑结束后 , 可选择文件分享至邮件 。
本文插图
4、绝招:看图识字 , 还能给视频配字幕
除了声音记录和转写之外 , 讯飞在三款新录音笔上也添加了图像方面的创新应用 , 如支持OCR文字识别、图片拍摄识别文字、拍摄视频实现字幕等 。
硬件方面 , 讯飞智能录音笔SR901为后置三摄 , 包括1300万高像素主摄像头、800万像素120°超大广角摄像头、800万像素长焦摄像头;SR702为800万像素数字变焦后置单摄 。
功能方面 , SR901和SR702录音笔能够提取并实时记录图片上的文字内容 , 还可录制视频 , 进行实时收音 。
有意思的是 , 讯飞录音笔拍摄完成并导出视频文件时 , 支持自动生成字幕和后期编辑字幕 , 为录音笔增添了新的图像/视频交互体验 。
本文插图
二、解密:讯飞如何突破离线转写技术难点?
在这次讯飞智能录音笔SR系列的小爆发背后 , 是其长达多年的技术积累和创新 。
据智东西了解 , 此次发布中最大的技术亮点在于离线转写功能 。 不过 , 由于离线转写对硬件和算法方面都有着较高的要求 , 因此实现这项技术并非易事 。
硬件方面 , 离线转写与离线听写有着很大差异 。
离线听写多以短语音为主 , 数据是偶尔性调用 , 对瞬间运算能力有较大要求;离线转写多以长语音为主 , 数据调用一般持续1小时或数小时以上 , 对硬件的长时间算力、CPU功耗和散热情况等要求更高 。
软件方面 , 离线转写需适配讯飞的离线转写算法 , 实现与云端相当的实时性和准确性 。 同时 , 还要确保整机在长时间的转写过程中 , 温度始终维持在合适范围内 , 这也是离线转写算法的关键难点 。
针对这些难点 , 讯飞的转写技术主要从两个方面进行了优化和创新 。
一方面 , 讯飞录音笔采用CPU主频自适应调整、线程数动态调度等方式来缓解设备发热情况 , 以确保设备处于离线转写运行时工作频率始终保持稳定 。 这样不仅能保障离线转写的实时性和准确性 , 还能保证整机温度的适宜 。
另一方面 , 讯飞离线转写采用和在线转写几乎相同的核心算法 , 针对录音笔硬件的特性与指标进行裁剪与适配 , 包括模型蒸馏、定点化运算、多帧并行等技术 , 以实现流畅运行的目的 。
推荐阅读
- 新科技嗅|人工智能可以应用在哪些方面
- |暗号10G01 ,探馆数字中国建设峰会,“解锁”科大讯飞的A.I“十八般武艺”
- 技术编程|人工智能在大视频运维中如何实现CDN硬盘故障预测?
- 新加坡|新加坡大学生人工智能创新大赛开幕式举行 星环科技提供建模平台
- AI人工智能|“眼健康黑科技” AI智能眼科检测仪来了!展锐虎贲T710开发板等你来盘!
- 数据|科大讯飞在遵义成立大数据公司,注册资本3000万人民币
- AI人工智能|非接触式测谎分析系统应用
- AI人工智能|错题打印机喵喵机P1彩色版,学习的多种打开方式
- AI人工智能,智能电视|康佳KKTV智能语音电视,找回自己的专属乐趣
- AI人工智能|人工智能技术助力民族语言保护大有可为
