AI人工智能|美国劳工统计局使用机器学习自动执行数据编码( 二 )


【AI人工智能|美国劳工统计局使用机器学习自动执行数据编码】Alex Measure: 我加入劳工局大概是12年前 , 那时候人们主要还是在用知识工程或者基于规则的方法进行素材编码 。其中的基本思路是 , 如果希望计算机执行某项操作 , 则需要明确告知它执行任务所需要的每条规则与信息 。例如 , 如果要对职业进行分类 , 则可能需要创建一份清单 , 列出所有可能出现的职称以及与职称相对应的职业代码 。
这种方法在处理简单及标准化任务时表现不错 , 但遗憾的是 , 即使是在职位分类这种相当具体的应用领域当中 , 系统也几乎无法直接处理人类语言 。例如 , 在《职业伤害与疾病调查》中 , 我们发现每年收到的职位中约有2000种被系统直接对应为“管理员” 。更糟糕的是 , 总会出现某些以往从未出现在数据中的新职位 , 而且部分职位与所在行业紧密相关 , 具体取决于特定企业的命名惯例或者行业中的传统用语 。结果就是 , 我们需要制定体量庞大且相当复杂的规则 , 而这一切最终也只能支持840多种职业分类 。更要命的是 , 这套系统的构建与维护都极为困难 。
有监督机器学习带来了一种替代方案——相较于明确告知计算机其需要了解以及执行的任务内容 , 现在我们可以引导计算机通过数据进行学习 , 由其自主找到执行某些任务的最佳方法 。只要大家拥有成规模的数据素材(多年以来 , 我们已经积累到可观的数据资源) , 那么往往只需要很少的人工投入就能构建起一套效率极高的系统 。在我们的案例中 , 劳工局在短短几周之内就使用自由开源软件构建起我们的第一套机器学习系统 , 并发现其性能远远超越我们以往长期使用的、基于规则的昂贵方案 。更令人惊讶的是 , 其性能甚至比我们的编码员还要高 。
与传统方案相比 , 机器学习方法也给自动化带来了更多发展空间 。如今 , 劳工局与全球各统计机构已经在类似的任务中迅速推广此项技术 。当然 , 机器学习在其他领域也拥有良好表现 。我们正使用机器学习技术自动检测数据错误 , 并自动匹配并标记数据集中的缺失记录 。这对我们可谓意义重大 , 能够帮助劳工局通过更多不同来源收集到大量数据 。
问:AI/ML技术的介入 , 给原本的编码员们带来了怎样的影响?
Alex Measure: 在最初考虑引入自动化解决方案时 , 人们普遍感到担心 , 不少员工抵制自动化并将其视为一种威胁 。但实际情况并非如此 , 我认为这得益于我们采取的具体实施方式以及对整体状况的综合考量 。首先 , 我们很早就做出决定 , 将自动化的重点放在提高数据质量方面 。这非常重要 , 因为除了数据质量本身的意义之外 , 这也代表着一种非常新颖的处理方式 , 要求我们保证编码流程的正确执行、并在出现问题时及时启动预先制定的可靠备份计划 。我们的规划基本如下:
第一 , 将计算机最擅长的工作交由自动化处理 , 将人类最擅长的工作留给雇员 。
第二 , 逐步引入自动化机制 , 保证员工有时间适应工作量与工作方式的变化 。
第三 , 由雇员负责监督自动分配的代码 , 并在他们认为计算机存在错误时分配人员做出调整 。
第四 , 将节约下的资源用于其他重要任务 , 例如数据收集与数据审查 。
结果就是 , 在随后的六年时间里 , 越来越多的常规编码工作逐渐被速度更快、质量更好的数据审查与收集自动化方案所接管 。这还带来令人意外的结果 , 即我们对常规手动编码的需求虽然大大减少 , 但模型无法处理的高难度情况仍然依赖于人类专家 。因此 , 自动化程度越高 , 能够处理的总数据量就越大 , 其中需要人为介入处理的数据同样更多 。结果就是 , 负责人为调整以及验证机器学习系统是否正常运行的雇员反而有所增加 。
问:您能否分享一些在劳工局的应用场景中 , AI技术发现的有趣或者令人意外的洞见?


推荐阅读