百度工程师揭秘智能标注原理 看AI如何帮你减轻数据标注烦恼

无论是在传统机器学习领域还是现今炙手可热的深度学习领域 , 基于训练样本有明确标签或结果的监督学习仍然是一种主要的模型训练方式 。 尤其是深度学习领域 , 需要更多数据以提升模型效果 。 目前 , 已经有一些规模较大的公开数据集 , 如ImageNet , COCO等 。 对于深度学习入门者 , 这些公开数据集可以提供非常大的帮助;但是对于大部分企业开发者 , 特别在医学成像、自动驾驶、工业质检等领域中 , 他们更需要利用专业领域的实际业务数据定制AI模型应用 , 以保证其能够更好地应用在业务中 。 因此 , 业务场景数据的采集和标注也是在实际AI模型开发过程中必不可少的重要环节 。
数据标注的质量和规模通常是提升AI模型应用效果的重要因素 , 然而完全通过人力手动标注数据建立一个高质量、大规模专业领域数据集却并不容易:标注人员的培训与手工标注成本高、耗时长 。 为解决此问题 , 我们可以利用主动学习的方法 , 采用Human-in-the-loop的交互式框架(图1)进行数据标注 , 以有效减少人工数据标注量 。
百度工程师揭秘智能标注原理 看AI如何帮你减轻数据标注烦恼
图1 基于主动学习的Human-in-the-loop交互式数据标注框架
主动学习(Active Learning, AL)是一种挑选具有高信息度数据的有效方式 , 它将数据标注过程呈现为学习算法和用户之间的交互 。 其中 , 算法负责挑选对训练AI模型价值更高的样本 , 而用户则标注那些挑选出来的样本 。 如Human-in-the-loop交互式数据标注框架 , 通过用户已标注的一部分数据来训练AI模型 , 通过此模型来标注剩余数据 , 再从中筛选出AI模型标注较为困难的数据进行人工标注 , 再将这些数据用于模型的优化 。 几轮过后 , 用于数据标注的AI模型将会具备较高的精度 , 更好地进行数据标注 。 以图像分类问题举例 , 首先 , 人工挑选并标注一部分图像数据 , 训练初始模型 , 然后利用训练的模型预测其余未标注的数据 , 再通过主动学习中的查询方法挑选出模型比较难分辨类别的数据 , 再人为修正这些难数据的标签并加入训练集中再次微调(Fine-tuning)训练模型 。 查询方法是主动学习的核心之一 , 最常见的查询方法有基于不确定性的样本查询策略和基于多样性的样本查询策略 。
基于不确定性的样本查询策略可查询出深度学习模型预测时 , 靠近决策边界的样本 。 以二分类问题举例 , 当一个未标注样本被预测为任一标签的概率都是50%时 , 则该样本对于预测模型而言是不确定的 , 极有可能被错误分类 。 要注意的是 , 主动学习是一个迭代过程 , 每次迭代 , 模型都会接收认为修正后的标注数据微调模型 , 通过这个过程直接改变模型决策的边界 , 提高分类的正确率 。
基于多样性的查询策略 , 可实现对当前深度学习模型下状态未知样本的查询 。 将通过多样性查询挑选出的数据加入训练集 , 可丰富训练集的特征组合 , 提升模型的泛化能力 。 模型学习过的数据特征越丰富 , 泛化能力越强 , 预测模型适用的场景也越广 。
为解决大数据量标注的痛点 , 基于主动学习且融合多样查询策略的智能标注AI解决方案应运而生 。 通过百度大脑EasyDL平台使用智能标注后 , 开发者们只需标注数据集中30%左右的数据 , 即可启动智能标注在EasyDL后台自动标注剩余数据 , 再返回少量后台难以确定的数据再次进行人工标注 , 同时提升自动标注的准确性 , 经过几轮之后 , 在实际项目测试中 , 智能标注功能可以帮助用户节省70%的数据标注量 , 极大地减少数据标注中的人力成本和时间成本 。
EasyDL零门槛AI开发平台 , 面向企业开发者提供智能标注、模型训练、服务部署等全流程功能 , 针对AI模型开发过程中繁杂的工作 , 提供便捷高效的平台化解决方案 。 EasyDL面向不同人群提供了经典版、专业版、行业版三种产品形态 , 其中EasyDL专业版支持深度开发高精度业务模型 , 内置了丰富的大规模预训练模型 , 仅需少量数据即可达到优异的模型效果 。 目前 , EasyDL的智能标注功能已支持计算机视觉CV方向的物体检测模型、自然语言处理NLP方向的文本分类模型两大方向的数据标注 。 选择EasyDL专业版模型定制 , 点击智能标注即可进入 。 使用方法也很简单 , 共为三步:


推荐阅读