EasyDL|效果提升18%!百度EasyDL自研数据增强服务加持AI模型开发
_原题为 效果提升18%!百度EasyDL自研数据增强服务加持AI模型开发
在 AI 模型开发的过程中 , 许多开发者被不够充足的训练数据挡住了提升模型效果的脚步 , 一个拥有出色效果的深度学习模型 , 支撑它的通常是一个庞大的标注数据集 。 因此 , 提升模型的效果的通用方法是增加数据的数量和多样性 。 但在实践中 , 收集数目庞大的高质量数据并不容易 , 在某些特定领域与应用场景甚至难以获取大量数据 。 那么如何能在有限数据的情况下提升模型的效果呢?
随着深度学习的发展 , 数据增强技术可以协助开发者解决这一问题 。 数据增强技术通过对数据本身进行一定程度的扰动从而产生“新”数据 , 模型通过不断学习大量的“新”数据来提升泛化能力 。
不同数据集的数据特性决定了其所适用的数据增强策略组合 , 在没有对数据特性有专业理解能力的情况下 , 用户很难构建出能与数据集特性强相关的数据增强策略组合 。 比如在标准的 ImageNet 数据预处理流程中有使用 Random Crop(随机剪裁)、Random Flip(随机翻转)等数据增强技术 , 取得了不错的效果增益 , 但在某些特定用户场景(如零售场景 SKU 抠图场景)数据边缘存在重要信息时 Random Crop 会导致信息的损失、在某些特定用户场景(如数字识别)时 Random Flip 会导致特征的混淆 。 因此如何根据数据特征来自动化搜索数据增强策略组合成为了一个热门的研究方向 。
追溯学术界对自动数据增强领域的研究 , 最具影响力的一篇论文是 Google 在2018年提出的 AutoAugment 技术 。 随后 , 相关的优化论文层出不穷 , 简单梳理依据现有方法的一些建模思想 , 如图1 。
文章图片
▲ 图1 自动数据增强算法建模思路归类
- 强化学习:AutoAugment [1] 借鉴了基于强化学习的架构搜索算法 , 在离散化的搜索空间内通过 PPO(Proximal Policy Optimization)算法来训练一个 policy generator, policy generator 的奖励信号是其生成的 policy 应用于子网络训练完毕后的验证集准确率 。 其问题在于 AutoAugment 的搜索成本非常高 , 还无法满足工业界的业务需求 , 难以应用在业务模型开发中 。
- 密度匹配:Fast AutoAugment [2] 采用了密度匹配的策略 , 希望验证数据通过数据增强后的数据点能与原始训练数据集的分布尽量匹配 。 这个思路直觉上可以排除一些导致数据集畸变的增强策略 , 但没有解决“如何寻找最优策略”这一问题 。
- 遗传进化:PBA [3] 采用了 PBT 的遗传进化策略 , 在多个网络的并发训练中不断“利用”和“扰动”网络的权重 , 以期获得最优的数据增强调度策略 。 这个思路直觉上是可以通过优胜劣汰来搜索到最优策略 。
- 网格搜索:RandAugment [4] 通过统一的强度和概率参数来大幅减小搜索空间 , 期望能用网格搜索就解决数据增强搜索的问题 。 但这一技术并不具备策略的可解释性 , 抛开实现手段不谈 , 这篇论文更像是对 AutoAugment 的自我否定(注: RandAugment 也是 Google 出品的论文) 。
- 对抗学习:Adversarial AutoAugment [5] 在 AutoAugment 的基础上借鉴了 GAN 的对抗思想 , 让 policy generator 不断产生难样本 , 并且使 policy generator 和分类器能并行训练 , 降低了搜索时长 。 但整体搜索成本还是非常高 。
- 可微分:DADA [6]借鉴了 DARTS 的算法设计思路 , 将离散的参数空间通过 Gumbel-Softmax 重参数化成了可微分的参数优化问题 , 大大降低了搜索成本 。
EasyDL 面向企业开发者提供智能标注、模型训练、服务部署等全流程功能 , 针对 AI 模型开发过程中繁杂的工作 , 提供便捷高效的平台化解决方案 , 并且内置了丰富的预训练模型与优化的多种算法网络 , 用户可在少量业务数据上获得高精度的模型效果 。 EasyDL 面向不同人群提供了经典版、专业版、行业版三种产品形态 。
目前 , 遗传进化 PBA 技术已经在 EasyDL 平台中的成功实现 , 可微分的技术思路在 EasyDL 业务中的实践也在持续探索中 。
PBA 采用了 PBT [7]的遗传进化策略 , 通过训练一群神经网络(种群 , Trials)来找出超参数调度 。 Trials 之间会周期性地将高性能 Trial 的权重复制给低性能的 Trial(exploit) , 并且会有一定的超参扰乱策略(explore) , 如图2的 PBT 流程图 。
推荐阅读
- 哈尔滨|提升产品质量、促进企业高质量发展丨“质量月”首期企业首席质量官“上课”了
- 成立|搭建互通桥梁 携手专业提升 郑州市泌尿生殖学会成立
- 创文|邓群策暗访督查创文工作,强调不断提升群众获得感、幸福感和满意度
- 效果|《元气满满的哥哥》优点很多,追逐小能手王彦霖,综艺效果拉满
- 电子商务|沃尔玛为何要竞购TikTok?看抖音网红带货效果不错
- 时政|2019年度全省营商环境评价结果发布 平均得分比上年提升9.59分
- 重点产业|【行走自贸区】临港新片区降低企业税收成本 促进重点产业提升能级
- 云南:强化领导干部办案 推动办案能力和领导能力双提升
- 广西:优化“案-件比” 提升人民群众司法获得感
- Linux|Fedora 34 计划通过提升压缩率减少安装媒介体积
