「读芯术」臭名昭著的数据清理和准备问题，如何利用AI完美解决？( 二 )

· 如何扩展到数百万个随机变量？将问题简单建模为所有交互数据块之间可能的大规模联合分配将完全失灵！
我们构建了Inductiv ，这是一个用于结构化数据的AI平台，专门用于构建描述数据如何生成以及如何被“污染”的模型。这些模型可用于各种服务中，例如错误检测，预测缺失值的错误校正，补充额外的列以及融合数据块。
Inductiv建立在学术开源项目HoloClean（www.holocl ean.io）的基础上，该项目由滑铁卢大学，威斯康星大学麦迪逊分校和斯坦福大学于2017年联合启动。
运用AI清理数据
HoloClean采用著名的噪声通道模型来解释数据是如何生成以及如何被“污染”的。 HoloClean利用已知的领域知识（例如规则），数据中的统计信息以及可用信源来构建复杂的数据生成和错误模型。这些模型将用于发现错误并建议最可能的值作为修复替换。

本文插图
图1：数据的生成过程是干净的，我们观察到了“被污染“”的版本。通过对这些过程进行建模和参数化，格式化清理数据可以表示为推理问题。
尽管此模型在数据整理和检测的帮助下可预测问题，但是为可扩展解决方案提供足够优秀的模型才是真正的难点。
构建错误检测解决方案
在关于如何使用很少的示例来检测错误的论文中，我们解决了一些前面提到的挑战：
· 模型。错误的异质性及其副作用使得确定模型应捕获的统计和完整性属性，以便区分正确和错误的单元格，变得非常困难。这些属性与描述管理数据集分布的属性级，元组级和数据集级功能相对应。图2中描述的模型学习了一个表示层，该表示层捕获了这些多级特征，用以学习二进制错误检测分类器。
· 数据不平衡。由于错误很少见并且以不同的类型出现，因此机器学习算法在面对不平衡的数据集时往往会产生效果不佳的分类器。少数群体的特征被视为噪音，通常被忽略。因此，与多数类别相比，少数类别的错误分类可能性很高。本文推荐的模型的一部分是“数据扩充”过程（图3），该过程根据学习到的错误生成策略来制造许多“伪”错误。同时使用一些错误示例来学习策略参数。尽管数量有限，不足以训练错误检测分类器，但足以帮助了解可能的错误分布。

本文插图
图 2: 多级结构的错误检测模型

本文插图
图3：生成错误的策略示例用于解决训练数据类不平衡的问题
归纳引擎：结构化数据的现代化AI
人们会很快意识到，诸如准备，清理，错误检测和缺失值归因之类的数据问题都是可扩展的统一推理引擎应用程序，该引擎能够对“结构化”数据的生成方式以及错误的引入方式进行建模。更重要的是，参考本文和随附的演讲中提到的各种原因，该引擎需要综合现代机器学习原理，例如：
· 用于训练数据生成的数据扩充和数据编程· 学习对目标列/值进行建模的各种语境表示，例如学习异构数据类型的嵌入空间
· 利用诸如其他值重建一些观察到的数据值之类的技术进行自我监督以尽可能利用所有数据
· 用于合并领域知识和规则以延伸到表达模型的扩展形式
· 用于数据分区和学习本地模型的系统样式优化，以允许可扩展部署和容纳具有多个数据分布的数据集
归纳引擎将之前的所有结果集成在一个统一的AI内核中。引擎产生的预测可为各种数据准备服务。图4描绘了涵盖上述原理核心的主要组成部分，包括基于注意力的环境表示机制，分布式学习，数据切片以及具有多任务学习的自我监督，用来处理不同的数据类型（例如，回归分析数字型数据和分类类型数据）。在MLSys 2020论文中，我们提出了一种基于注意力的学习架构，用于混合类型的结构化数据中缺失值的估算（图5）。

「读芯术」臭名昭著的数据清理和准备问题，如何利用AI完美解决？( 二 )

推荐阅读

抱一下，4000元没了！

美国：英德两国发现重要证据，病毒源头直指美国，特朗普这次百口莫辩了

北京市卫健委：当当网职工感染新冠肺炎致82名密切接触者隔离观察

经济日报|央行二季度调查显示：居民更敢消费企业更愿贷款

北京青年报|千余志愿服务项目惠及20万人次

四川|四川金川县金江村发生泥石流灾害，转移451人

西安日报■绕城部分路段车流量饱和，京昆高速拥堵，今天你被堵到哪里了？，曲江堵到进不去出不来

「创业最前线」C轮融资合计6.5亿，编程猫再获C+轮2.5亿融资

「搞笑38度」第二天通报：女生8人，男生10人，开怀大笑：学校在操场抓早恋

淘宝上卖的几块钱的USB LED 灯与小米的19块正品有啥实质区别

黄景瑜|吃瓜！黄景瑜前妻放出录音，声称婚内出轨张艺上，4个问题坐实了

纵相新闻规模全球第一，工信部副部长：我国4G用户已达12.8亿

苏亚雷斯|不计前嫌！基耶利尼支持苏亚雷斯加盟尤文，前者早已释怀

『华纳』华纳R级动作电影《真人快打传奇·蝎子的复仇》，极致暴力美学佳作

爱撒娇的男生咋改变自己

女孩失踪|7岁女孩失踪警方调查时邻居逃跑

中国网客户端|“双11”螺蛳粉卖疯了 “网红爆品”是怎样炼成的

杭菊和杭白菊样吗,杭白菊决明子保健茶宫廷秘方

#外星人#文明谜案：古埃及法老的DNA信息，西方人为什么不敢公布？

向勤如|疯抢厕纸！疫情反扑，美国民众再度囤货