「读芯术」臭名昭著的数据清理和准备问题,如何利用AI完美解决?


全文共3299字 , 预计学习时长10分钟
「读芯术」臭名昭著的数据清理和准备问题,如何利用AI完美解决?
本文插图
来源:Pexels
人工智能和深度学习在处理非结构化数据方面表现突出 , 从自然语言理解和自动知识库构建到图像和视频的分类和生成等方面都有着广泛的应用前景 。
然而 , 储存在产品存储库、事务日志、ERP和CRM系统等业务应用程序中的结构化数据却被人们遗忘!表格数据仍然由老一代的数据科学技术处理 , 如基于规则的系统或决策树 。 这些方法耗费人力 , 维护起来也很繁琐 , 并且需要大量手工标记的数据 。
尽管最近人工智能的进步使得从非结构化数据中挖掘巨大价值成为可能 , 但关注结构化数据在促进业务、收入、健康、安全甚至治理方面的价值也同样不容忽略 。
与非结构化数据相比 , 结构化数据的主要挑战之一是应用程序对数据质量的高度敏感性 。 虽然我们仍然可以观看分辨率不高的视频 , 或者在轻受损图像中识别物体 。
然而 , 描述大型企业或制药公司产品的大小、价格和数量属性上的小错误可能会造成灾难性的后果 , 这使得数据质量成为释放结构化数据资产价值的一大障碍 。
尽管数据管理社区花了几十年的时间试图解决此问题 , 但进展甚微 。 这主要是问题的复杂性、基于规则和逻辑系统处理问题的严重局限性而导致的 , 以及数据清理和准备周期高额的人力成本 。 至于现在 , 显而易见 , 只有很少甚至没有人工交互的自动解决方案才是解决此问题的唯一可行方案 。
这就是为什么该问题适合用机器学习来解决 , 机器学习能够捕获企业数据的不同背景 , 并从可预测数据质量和建议进行数据修复的大量数据集模型中学习 。 因此使用机器学习来清理数据将解决结构化数据长期存在的问题:
· 它可以组合所有信号和上下文 , 包括业务规则 , 约束(如功能依赖项和键)及数据的统计属性;
· 它可以避免规则对边缘情况的失控 。 在许多情况下 , 与清除干扰数据相比 , 管理这些规则可能更具挑战性 , 而且成本更高 。
· 最后 , 它可以提供预测以保证流程质量 , 从而提高信心 。 或者在疑难情况下巧妙地引入人工参与 。
「读芯术」臭名昭著的数据清理和准备问题,如何利用AI完美解决?
本文插图
来源:Pexels
然而 , 受限于数据的本质(稀疏性 , 异构性 , 丰富的语义和领域知识) , 机器学习解决方案的优势并不明显 。 从积极的方面来说 , 诸如架构(列名 , 类型 , 域和各种完整性约束)之类的工件会编码语义的重要信息以及各种数据之间的潜在交互作用 。 两个人使用相同的邮政编码 , 却生活在两个不同的城市 , 这是不可能存在的 。 并且项目的总预算不能超过计划的支出 , 这也是明确的示例约束 。 这种“结构”使数据的价值超出了机器学习模型可以挖掘和利用的统计属性 。
但挑战同样存在 , 结构化数据可能是异构的 , 组合了来自不同领域的信息 , 例如文本 , 分类 , 数字甚至图像数据 。 它也可能非常稀疏 。 试想一个有100列的表格 , 每列都取自大小介于10到1000(例如制造商的类型 , 大小 , 价格等)之间的域值 , 以及描述企业产品的几百万行文字 。 不难想象 , 可能的组合空间非常“空” , 只有一小部分组合有效 。 没有任何结构 , 领域知识和约束 , 就很难了解很多有关如何生成数据或数据准确性的知识 。 因此 , 构建用于清理和准备结构化数据的可行机器学习解决方案有以下三个挑战:
· 如何将背景知识表示为模型输入 , 以处理数据稀疏性和异构性?在预测某一列中的值时 , 我们如何将关键约束、功能依赖、拒绝约束和其他复杂的完整性逻辑与要考虑的机器学习模型进行联系?
· 如何从有限(或无限)的训练数据和原始数据中学习?以“错误检测”模型为例 , 该模型应查找各种错误 , 包括输入错误 , 缺失值 , 不正确的值 , 矛盾事实 , 数据移位等 。 使用非常有限的可用错误示例来训练此类模型是个不容小觑的挑战 。


推荐阅读