科大讯飞虚拟主播打开直播新玩法 科大讯飞、影谱科技各有方案( 二 )


二次元虚拟主播以人设(IP)+技术在泛文娱赛道打开了一条缺口 , 而更多传统媒体机构 , 则开始运用虚拟主持人来替代重复性的新闻播报 。 2019世界制造业大会上 , 科大讯飞旗下的AI虚拟主播“小晴”亮相 , 它不仅拥有高颜值的外表 , 声音动听 , 熟知各国语言 , 可以实现实时翻译、实时播报、虚拟主持等多个场景 。
除此之外 , 科大讯飞与相芯科技合作推出了虚拟主持人“康辉” , 前者通过A语音合成技术对康辉的声音进行合成模拟 , 后者则通过FaceUnity的P2A和虚拟形象驱动技术设计康辉的形象和互动 。 2018年5月CCTV13的特别报道《直播长江》中 , “康辉”机器人完成了与采访人员现场对话、表演绕口令等多个任务 。
影谱科技也和媒体进行了虚拟演播室、虚拟主播等创新报道模式的探索 , 通过人脸识别、行为识别、物体检测、场景识别、自然语言处技术、人脸特征提取、人脸重构、情感迁移等多项前沿技术 , 按照指定人物形象 , 结合文本或语音自动生成动态和逼真的口型 , 同时合成自然流畅的面部以及全身的动作影像 。 据悉 , 影谱科技正在与大型媒体合作开发AI主播 。
技术深耕者
如果往前追溯 , 虚拟主播最早可以回溯到虚拟主持人时代 。 2001年 , 英国PA New Media公司推出了世界上第一个虚拟主持人“阿娜诺娃” , 三年后央视推出了国内首位虚拟电视节目主持人“小龙” 。 这些主持人形象高挑完美 , 可单独主持节目 , 但在动作流畅度、时效性、制作成本上都存在短板 , 无法与真人主持相媲美 。
为了解决这些难题 , 人工智能赛道的企业各施其法 , 推出了许多方案 。 比如 , 主流玩家多采取多模态融合生成技术 , 需要在准确性和时效性上做出妥协 , 为此影谱科技研发了一套面向虚拟主播自动编辑和生成系统 , 实现了虚拟主播的低延迟流式生成 。 在此方案下 , 影谱通过嘴型生成方法和面部渲染技术 , 提高了虚拟主播合成的准确度与清晰度 , 并通过低延迟优化技术显著减少了生成时间 , 满足实时、半实时的应用需求 。
不仅技术上打破了门槛 , 伴随着5G新基建的落地 , 虚拟主播也获得了大量应用前景和市场青睐 。 以媒体行业为例 , 它极大简化了策划、编辑、主持、制作等一系列工作 , 提升了播报的效率 , 虚拟主播的表情、神态、形象、动作也十分接近真人状态 。 在虚拟演播室中 , 媒体输入文字即可生产对应的音视频内容 , 音、视频输出可以轻松完成 , 达到快速生产内容的效果 。
不仅如此 , 疫情催生的人工智能热潮将在很长一段时间内继续发酵 。 对媒体来说 , 疫情报道机器人、数据新闻机器人、直播拆条机器人、海报视频机器人、字幕生成机器人 , 这些在疫情期间被频繁使用的智能工具 , 不仅在短期内缓解了生产焦虑 , 还将在更长远的时间维度上赋能行业转型 。 以虚拟主播为例 , 过往虚拟主播是媒体的锦上添花 , 而疫情的突发导致大量媒体工作人员隔离或无法到岗 , 虚拟播报和主持成为了必须 。
另一方面 , 短视频、直播的出现给了企业一个转型出口 , 对新技术的拥抱将从一种积极变成一种必须 。 而对于技术服务商而言 , 这将是重要契机 。 科大讯飞、影谱科技等行业龙头与大型媒体、企业的强强联合已经出现 , 一些中小型技术服务商也开始崭露头角 。
这个过程里 , 头部与中尾部各有侧重 , 比如科大讯飞主攻音频 , 主要为虚拟主播提供语音方案支持 , 而影谱科技素来以视频能力见长 , 对人物动作、形象、表情的捕捉和生产更熟练 , 因此在影像领域具备较强的落地能力 。 强大的通用技术能力 , 让龙头可以覆盖多个行业 , 而中尾部玩家因资源有限 , 更集中于单一行业的单点突破 。
一个预判是 , 随着技术、内容的不断融合 , 未来技术服务商与内容提供商之间 , 将会形成更强的联动效应 , 而在此之前 , 头部技术服务商因落地经验和技术积累丰富 , 将获得更大的内容议价权 , 在“技术+内容”的双塔结构下 , 获得先发优势 。


推荐阅读