「」互联网公司要怎么做内容风控才更安全?( 二 )


音频内容:音频识别的技术基础建立在以声学模型建立的发音模版 , 通过匹配发音模版判断出语种和对应表义 , 输出可被计算机理解的语言结果 。
音频内容的审核要略微复杂一些 , 一方面是音频背景音需要降噪才能准确识别语音内容 , 另一方面是声音内容的颗粒度要更细 , 比如掺杂在声音内容里的娇喘声 。百度内容审核平台为此增加了一个声学模型审核 , 对诸如娇喘声等违规信息可有效识别 。
以上几种不同媒介的机器审核是目前业界最普遍的基础方案 , 相较于人工审核 , 人工+机器的复合审核方式相当于将一些重复性高、需要大量计算的工作交给机器精筛 , 再由人工复审 , 以此达到海量内容的高效审核 。
这也存在一些问题 , 比如一张人像图片可以划分为“色情”、“性感”、“正常”三个维度 , 机器可以根据肉体裸露程度来判断 , 但在特定情况下又要有所区分 , 比如在电商平台销售内衣的模特照片就是合规的 , 而在母婴论坛可能就不一样 。
所以 , 在流程设计上 , 机器审核可以做到的就是帮助运维者先行剔除大量确切违规的内容 , 剩下的人工审核流程依旧不能省 。
需要怎样的内容风控解决方案?
那么 , 既然机器审核既有优势又有劣势 , 互联网平台究竟要怎样才能做到高效且节省成本的内容审核呢?
答案是从两个方面入手 。
其一 , 部署性能优越的机器审核平台 。目前 , 基本上互联网大厂都是自己开发 , 比如Facebook 。疫情期间 , 由于大部分人工审核员居家隔离 , Facebook依赖于AI检测系统 , 据说该系统可以自行检测到平台上90%的有害信息 。
国内的百度、腾讯、阿里、头条、快手等也都是自己开发的机器审核 。也有一些提供内容审核的大数据风控创业公司 , 比如同盾科技、数美科技等等 。
其中 , 百度是为数不多开放这一产品的大厂 。2018年 , 百度推出了基于AI开放平台的内容审核产品 , 支持图像、文本、音频、视频等多形式的审核 。
经过两年多的发展 , 目前百度内容审核平台已经升级到14+项图像、 8+项文本、9+项语音审核能力 , 并可以基于多年的风险处置经验实时更新系统策略 。
「」互联网公司要怎么做内容风控才更安全?
文章图片

文章图片

百度内容审核平台设定了全面的分类标签体系 , 包括色情20标签、暴恐17标签等等 , 这一体系可以让企业根据业务需求自由组合标签 , 也就是自定义模型 。
举个例子 , 在视频直播场景下亲密行为属于正常 , 而在母婴论坛就不能通过 。不同场景对违禁规则的需求不同 , 平台可以根据自身业务特性自定义模型 , 无疑这既增加内容审核准确度也不会对用户体验造成损伤 。
而且百度内容审核平台背后还有顶尖的技术支撑 , 百度是唯一连续三年入选MIT科技评论的年度十大突破技术公司 。在人脸检测Wider Face&person Chllenge 2019、机器阅读理解 MS MARCO数据集榜单等国际技术比赛中稳居第一 。
其二 , 人工依旧是内容安全审核无法略去的重要环节 , 而提高人工审核效率也是关键之一 。
据百度AI技术生态部高级产品经理Nathan透露 , 百度内容审核平台的客户存在一个非常明确的诉求 , 即AI 审核能力提高的同时 , 还需要一套功能更加完备的审核系统来提升审核的管理效率 。
近日 , 百度大脑就在内容审核平台的基础上又推出了人机协同审核管理平台 。
该平台的逻辑是辅助内容审核平台 , 相当于在整个审核流程中加入了一个新的AI机审 。以短视频为例 , AI机审可以调用内容审核平台接口 , 通过截帧、抽取音频的方式进行审核 , 对比内容审核平台 , AI机审在这其中增加了图像指纹、声纹黑库功能 , 进一步强化审核准确度 。


推荐阅读