AI发展自驱动,这家公司如何用AI成就人工智能里更智能的人工?

 2019年 , 人们再次谈起人工智能时 , 最常聊到的便是其如何应用 。 因为大家心里都清楚 , 人工智能要想服务于企业和社会 , 必须先从实验室中走出来 , 放下它那神秘高贵的外表 , 脚踏实地 。

  然而 , 就像半导体技术一样 , 在诞生之初 , 它没有得到产业的认可 , 主要是因为高昂的制作费用 , 一颗电晶体成本高达10美元 , 被戏称作实验室里的玩具 。 直到硅提纯、精密加工等技术的发展 , 才有了由杰克·基尔比所研发的现代集成电路 , 目前10美元可以买数千万甚至上亿颗电晶体 。

  人工智能的成本又由何组成呢?它不像芯片一样拥有明码标价的BOM , 普遍认为其主要来自于研发人员及工程师的薪资和服务器维护 , 事实上这个想法不够全面 。 绝大多数企业所采取的人工智能技术名为机器学习 , 需要有脱敏的训练数据支撑才得以运行 。 哪怕是实现Hopfield , 也需要远超想象的数据量 , 更何况是现如今那些拥有强鲁棒性的模型了 。

  数据采集标注看起来很简单 , 无非就是拍个照片标个点 , 但是真正要操作起来却根本不是那么一回事 。 首先要想在足够短的周期内采集到足够的数据量 , 必须要有足够的人手配置 。 假若要10万张人脸表情照片并且要有300个点需要标注 , 每人每天贡献20张合格的素材算是一个较为平均的水平 , 企业数据采集标注团队拥有50个人 , 那么完成这一单生意就需要100天的时长 , 也就是3个多月 。

AI发展自驱动,这家公司如何用AI成就人工智能里更智能的人工?。  拿到数据后再去复审、训练 , 到最后功能上线 , 少说也要将近半年的时间 。 这显然对不上软件叠代更新的理念 。 再加上这些人员的培训组织运营成本等等 , 一笔合格的数据采集业务的交付可能高达几万甚至数十万元 。 这也是为什么会有一种观点表示 , 人工智能不仅不会替代劳动力 , 反而会增加就业 。

  在海外 , 率先察觉到由人工智能所催生的新一片蓝海——数据采集和数据标注 , 最早由Appen为代表 , 后来随着MightyAI、Scale这样的公司出现 , 逐渐走向稳定 。 这个爆发点大约是在2016年 , 诸如后者这样的公司 , 均是在2015、2016这两年间出现的 。 而就在最近 , Scale AI创始人 , 华裔22岁青年Alexandr Wang宣布获得1亿美金C轮融资 , 公司估值超10亿美金 , 成为硅谷新晋独角兽 。

AI发展自驱动,这家公司如何用AI成就人工智能里更智能的人工?。  反观国内 , 人工智能的浪潮其实要比国外更为汹涌 , 然而专业从事数据采集标注的公司发展却比较滞后 。 即便是有几家相关的公司 , 却多半为自营状态 , 和海外服务众多AI企业的平台模式截然相反 。 当然 , 谁都是吃客单生意的 , 不同并不代表做错了 。

  国内有一家公司名为龙猫数据 , 是国内首家以众包的形式运营采集标注业务的 。 众包形式的好处就在于人员调用足够充沛 , 相较于传统的员工制 , 众包形式更为灵活 。 同时 , 淡季的时候也不用支付员工薪资 , 减轻了运营成本 。

  但是众包形式的缺点在于用户管理 , 数据采集成员和龙猫之间并没有劳务合同 , 只有平台运营规范作为制约 。 龙猫数据因此采取了精细化管理的方式 , 对用户进行能力画像 , 将不同用户分配到多个不同环节 , 包括数据采集和标注、数据审查等等 。

  为了提高数据产出的质量与效率 , 配合龙猫数据的众包模式和精细化用户运营 , 龙猫数据采用了预标注工具和人机交叉数据验证这两种措施 。 前者是指 , 龙猫众包平台的AI工具会先对需要标注的数据进行预标注 , 然后再由标注人员对预标注结果进行微调;后者则指的是龙猫数据会对标注好的数据进行机器和人的双重交叉审核 , 加上合理数量的抽检 , 最终满足数据交付的要求 。


推荐阅读