「读芯术」臭名昭著的数据清理和准备问题,如何利用AI完美解决?( 二 )


· 如何扩展到数百万个随机变量?将问题简单建模为所有交互数据块之间可能的大规模联合分配将完全失灵!
我们构建了Inductiv , 这是一个用于结构化数据的AI平台 , 专门用于构建描述数据如何生成以及如何被“污染”的模型 。 这些模型可用于各种服务中 , 例如错误检测 , 预测缺失值的错误校正 , 补充额外的列以及融合数据块 。
Inductiv建立在学术开源项目HoloClean(www.holocl ean.io)的基础上 , 该项目由滑铁卢大学 , 威斯康星大学麦迪逊分校和斯坦福大学于2017年联合启动 。
运用AI清理数据
HoloClean采用著名的噪声通道模型来解释数据是如何生成以及如何被“污染”的 。 HoloClean利用已知的领域知识(例如规则) , 数据中的统计信息以及可用信源来构建复杂的数据生成和错误模型 。 这些模型将用于发现错误并建议最可能的值作为修复替换 。
「读芯术」臭名昭著的数据清理和准备问题,如何利用AI完美解决?
本文插图
图1:数据的生成过程是干净的 , 我们观察到了“被污染“”的版本 。 通过对这些过程进行建模和参数化 , 格式化清理数据可以表示为推理问题 。
尽管此模型在数据整理和检测的帮助下可预测问题 , 但是为可扩展解决方案提供足够优秀的模型才是真正的难点 。
构建错误检测解决方案
在关于如何使用很少的示例来检测错误的论文中 , 我们解决了一些前面提到的挑战:
· 模型 。 错误的异质性及其副作用使得确定模型应捕获的统计和完整性属性 , 以便区分正确和错误的单元格 , 变得非常困难 。 这些属性与描述管理数据集分布的属性级 , 元组级和数据集级功能相对应 。 图2中描述的模型学习了一个表示层 , 该表示层捕获了这些多级特征 , 用以学习二进制错误检测分类器 。
· 数据不平衡 。 由于错误很少见并且以不同的类型出现 , 因此机器学习算法在面对不平衡的数据集时往往会产生效果不佳的分类器 。 少数群体的特征被视为噪音 , 通常被忽略 。 因此 , 与多数类别相比 , 少数类别的错误分类可能性很高 。 本文推荐的模型的一部分是“数据扩充”过程(图3) , 该过程根据学习到的错误生成策略来制造许多“伪”错误 。 同时使用一些错误示例来学习策略参数 。 尽管数量有限 , 不足以训练错误检测分类器 , 但足以帮助了解可能的错误分布 。
「读芯术」臭名昭著的数据清理和准备问题,如何利用AI完美解决?
本文插图
图 2: 多级结构的错误检测模型
「读芯术」臭名昭著的数据清理和准备问题,如何利用AI完美解决?
本文插图
图3:生成错误的策略示例用于解决训练数据类不平衡的问题
归纳引擎:结构化数据的现代化AI
人们会很快意识到 , 诸如准备 , 清理 , 错误检测和缺失值归因之类的数据问题都是可扩展的统一推理引擎应用程序 , 该引擎能够对“结构化”数据的生成方式以及错误的引入方式进行建模 。 更重要的是 , 参考本文和随附的演讲中提到的各种原因 , 该引擎需要综合现代机器学习原理 , 例如:
· 用于训练数据生成的数据扩充和数据编程· 学习对目标列/值进行建模的各种语境表示 , 例如学习异构数据类型的嵌入空间
· 利用诸如其他值重建一些观察到的数据值之类的技术进行自我监督以尽可能利用所有数据
· 用于合并领域知识和规则以延伸到表达模型的扩展形式
· 用于数据分区和学习本地模型的系统样式优化 , 以允许可扩展部署和容纳具有多个数据分布的数据集
归纳引擎将之前的所有结果集成在一个统一的AI内核中 。 引擎产生的预测可为各种数据准备服务 。 图4描绘了涵盖上述原理核心的主要组成部分 , 包括基于注意力的环境表示机制 , 分布式学习 , 数据切片以及具有多任务学习的自我监督 , 用来处理不同的数据类型(例如 , 回归分析数字型数据和分类类型数据) 。 在MLSys 2020论文中 , 我们提出了一种基于注意力的学习架构 , 用于混合类型的结构化数据中缺失值的估算(图5) 。


推荐阅读