AI发展自驱动,这家公司如何用AI成就人工智能里更智能的人工?( 二 )

  借用众包的模式 , 从任务发布到数据交付 , 这样一个流程下来 , 即便是几十万数据规模的大单 , 短短一两周也就能搞定 。

  龙猫数据也有头疼的地方 , 他们有一个客户是全球非常知名的通信设备商 。 根据GDPR的规定 , 凡是消费到GDPR所保护地区的产品 , 必须要遵守相关规定 。 这也就使得龙猫在数据采集时也要合乎GDPR的标准 。 为此 , 龙猫招纳了深入了解GDPR的相关人士 。

  人工智能飞速发展为数据行业带来了大量不同的基础数据需求 , 龙猫数据的客单总体分为两类:采集标注过的数据和没有采集标注过的数据 。 已有的数据再次采集标注是一种资源浪费 。 于是龙猫数据推出了一项数据商城服务 , 即用户可直接在商城中购买已经存在的数据集 , 以便快速拿到数据 。 当然了 , 数据商城的数据在复售前都会与客户签订一定的协议 , 已保证龙猫数据依然合法享有这批数据的销售权 。

  类似于知识产权 , 数据在销售以后还是存在的 , 也就是说某一企业在购买数据后 , 它可以将其复制给其他公司 。 相当于多个企业只要买一份数据就能完成所有的训练了 , 在经济学的角度来讲 , 哪怕是购买方销售了一次数据 , 这对于龙猫数据来说都是一种损失 。 区块链或许是一种解决办法 , 不过当下 , 龙猫把注意力放在了另一件事上 。

  龙猫数据将自己目前的发展分为了三个层次 , 第一层次为龙猫1.0 , 即数据标注工具集合 。 1.0时期 , 龙猫开发了基于视觉、音频、文本这三大领域的标注工具 , 用于对数据进行手动处理 , 以服务于机器学习的训练 。 第二层为龙猫2.0 , 在这段时间里 , 龙猫开始从整体流程上对数据采集标注进行优化 , 实现了从接到需求到完成需求的全过程自动化管理 , 其中非常重要的一部分是对数据采集标注任务的细化拆分 , 将一个复杂的任务细化拆分成颗粒度极小的需求 , 极大提升了需求满足的时间 。

  2019年 , 龙猫数据进入了3.0时期 , 开发AI预标注工具 。 目前这种预标注工具主要应用在视觉层面 , 而音频和文本这两项业务应用较少 。 龙猫数据3.0所代表的是全面采用预标注技术和工具 , 能够让所有数据采集标注人员都能使用 , 从而提高效率 , 对于龙猫数据来说 , 这种工具的应用能够极大缩短交付周期 。

  龙猫数据3.0会持续一段时间 , 随后便进入4.0时期 。 在那个时期里 , 龙猫会全面采用自动化标注工具 , 用户只需要对采集数据和预标注结果进行微调 , 标注及审核、质检工作全面由人工智能所代替 。 只是这个道路还较为遥远 , 现在不好估量 。

  然而不难想象的是 , 未来的数据采集公司必须要通过工具和预标注来形成自己的技术壁垒 。 采集过程主要依靠人来完成 , 其规模和效率主要来自于市场运营和任务奖励 , 这也就意味着从采集到产出之间 , 劳动时间越短 , 成本也就越少 , 能够完成的客单数量也就越多 。

  从客户数量来看 , 龙猫现有约200家客户左右 , 基于众包形式的优势 , 这种数量级是合理的 。 毕竟从外部看 , 在质量合格的前提下 , 自然会选择产品周期最短 , 价格最便宜的公司 。 这种模式也造就了龙猫数据客户复购量大 , 核心客户客单价高的局面 。

  从内部看 , 龙猫数据的模式没有大幅度变更 , 反倒是流程发生了变化 , 最根本的原因还是在于工具的进化 。 同时 , 龙猫自3.0时期开始也不再是一家传统的数据采集标注公司 , 而是一家人工智能公司 。


推荐阅读