AI人工智能|美国劳工统计局使用机器学习自动执行数据编码( 四 )


过去几年当中 , 研究人员们已经在这方面取得了巨大的进展 。这种进展主要来自两个方面:
其一是迁移学习 , 即将一项任务中学习到的知识转移到另一项任务上 , 有时候人们也将其称为自我监督学习 。这基本上就是将有监督学习技术应用于无明确标记的数据 。最近 , 一种流行的自我监督语言任务开始被人们所重视 , 即首先收集大量文本、而后重复采样其中的部分小规模子集、隐藏采样中的某些单词 , 训练模型根据上下文预测缺失的片段 。只要能够正确完成这一操作 , 我们即可获得一套对语言拥有深刻理解的模型 , 且不需要任何显式标签 。接下来 , 我们就能通过迁移学习将该技术应用于指向不同语言处理任务的模型 , 例如预测伤害分类等 。如果一切顺利 , 那么其能够显著降低任务自动化所需要的训练数据总量 。这无疑为目前由于缺乏训练数据而无法实现自动化的众多应用场景 , 打开了通向机器学习的大门 。
我们关注的另一个重要领域在于差异化隐私 , 其在AI内部与外部皆有应用 。最新进展已经带来一种全新机制 , 能够在实现机器学习模型共享的同时 , 为基础训练数据提供严格的隐私保护 。一领域的进展有望加快受信数据收集方之间的自动化成果流通(例如经过训练的机器学习模型以及统计估计值) , 同时提升基础数据的保密性水平 。


推荐阅读