百度工程师揭秘智能标注原理 看AI如何帮你减轻数据标注烦恼( 二 )


- Step1启动智能标注
在数据管理/标注上传完训练数据集后 , 即可激活创建智能标注任务按钮(图2) , 点击该按钮后 , 进入数据集选择 。 需要注意的是 , 系统将自动对选择的数据集进行校验 。 校验规则如下:
图像数据集:确保每个标签的标注框数都超过10个 。
文本数据集:数据集中已标注数据量超过600条;每个标注标签的数据量超过50条;未标注数据的数据量超过600条 。
以上图像和文本数据集之所以采取不同的校验规则 , 是因为在实际场景下 , 文本与图像的数据集获取方式及数据规模区别较大 , 且智能标注后端AI模型训练的启动样本数量不一 。
点击启动智能标注,进入数据校验阶段 , 若校验不通过 , 会出现智能标注启动失败的提示;若校验通过 , 则进入筛选数据阶段 , 用户需稍作等待 。
百度工程师揭秘智能标注原理 看AI如何帮你减轻数据标注烦恼
图2 创建智能标注任务
- Step2标注部分数据
系统会自动从未标注数据集中筛选出最具有代表性、也是最需要优先标注的样本数据 。 用户需要人工标注这些推荐的样本数据 , 为了提高标注效率 , 系统也会提供预标注供用户修改确认 。 在图像智能标注中 , 用户勾选右上角的显示预标注开启该辅助功能(图3) , 点击满意预标注结果即可对预标注结果进行确认;在文本智能标注中 , 系统会自动显示预标注标签 , 点击每一条文本右侧的确认或右上角的本页全部确认对预标注进行确认(图4) 。
确认所有推荐数据的预标注后 , 用户可以自主选择是否进行下一轮数据筛选 。 图像智能标注中 , 若用户不中止智能标注 , 则系统会自动进行下一轮;文本智能标注中 , 由于文本数据集规模一般较大 , 确认数据预标注的人力成本较高 , 为了提升用户体验 , 系统不默认进入下一轮迭代 , 用户可点击右上角的优化智能标注结果进行下一轮筛选(图5) 。 通过多轮筛选 , 数据预标注准确性也会不断提升 。 为了保证数据标注智能 , 建议用户至少进行一轮的数据筛选或优化智能标注 。
百度工程师揭秘智能标注原理 看AI如何帮你减轻数据标注烦恼
图3 图像智能标注
百度工程师揭秘智能标注原理 看AI如何帮你减轻数据标注烦恼
图4 文本智能标注
百度工程师揭秘智能标注原理 看AI如何帮你减轻数据标注烦恼
图5 文本智能标注进入数据筛选优化迭代
- Step3结束智能标注
当用户觉得当前推荐数据的预标注已足够准确 , 不再进行下一轮数据标注推荐筛选 , 或者系统自动判断当前标注的数据已足够时 , 则进入结束智能标注阶段 。 在图像智能标注中 , 系统会弹出提示(图6) , 选择一键标注系统会自动标注剩余未标注数据 , 选择立即训练则停止智能标注 , 之后可以利用已确认的标注数据去训练模型;在文本智能标注中 , 不选择优化标注结果则认为停止智能标注 , 系统自动标注所有未标注数据 , 并归为已标注·智能数据集 , 该类数据与已标注·人工均可用于模型训练 。
百度工程师揭秘智能标注原理 看AI如何帮你减轻数据标注烦恼
图6 结束图像智能标注
百度工程师揭秘智能标注原理 看AI如何帮你减轻数据标注烦恼
图7 EasyDL智能标注使用流程图
在智能标注功能的加持之下 , 重复枯燥的标注功能都交给AI模型 , 大大降低了时间与人力成本 。 在数据方面 , EasyDL中的EasyData智能数据服务平台 , 提供覆盖采集、清洗、标注、加工等一站式数据处理功能 , 并与模型训练环节无缝对接 , 通过数据闭环功能支持高效的模型迭代 。


推荐阅读