#中国统计网#Spark高级分析指南 | 机器学习和分析流程详解(上)
- 点击上方“中国统计网”订阅我吧!-
本文插图
除了大规模SQL分析和流程 , Spark也提供对大规模机器学习和图像分析的支持 。 这是我们常称之为“高级分析”的一部分 。 本文会介绍 Spark中你可以用来进行高级分析的不同部分 , 覆盖高级分析的基础入门知识 , 一些使用案例 , 和一个基本的高级分析工作流 。 包括:
- 预处理数据(数据清洗和特征工程)
- 监督学习
- 非监督学习
- 推荐引擎
- 图分析
- 深度学习
由于文章过长 , 将分为两篇给大家分享 , 本篇主要讲第一部分【高级分析的简单介绍】 , 另外两章【高级分析流程】和【spark高级分析工具箱】将在明日推文中分享 。
01高级分析的简单介绍在详细介绍之前 , 让我们更正式地定义高级分析 , 并提供一个简单的机器学习速成课程 。
Gartner 在他们的IT术语中这样定义高级分析:”高级分析是使用复杂技术和工具的对数据或内容的自动或半自动检查 , 通常超越传统的商业智能(BI) , 来发掘更深层的见解 , 以做出预测或给出建议 。 高级分析技术包括 数据/文本挖掘 , 机器学习 , 模式匹配 , 预测 , 可视化 , 语义分析 , 情感分析 , 网络与聚类分析 , 多变量统计 , 图像分析 , 仿真 , 复杂事件处理 , 神经网络 。 ”
换句话说 , 高级分析是一堆用于解决在获得insights和基于数据给出预测和建议中的核心问题的技术 。
机器学习的最佳本体是基于您希望执行的任务构建的 。 最常见的任务:
- 监督学习 , 包括分类和回归
- 推荐引擎 , 基于行为或偏好推荐不同产品
- 无监督学习 , 包括分类 , 异常检验和主题建模
- 图像分析 , 比如 发现和理解图像中的关系结构
1. 监督学习监督学习可能是你最熟悉的机器学习类型 。 其目的很简单 , 就是用标记过的历史数据(常称为因变量) , 教算法预测标签的值 。 如果算法预测错误 , 我们会调整算法(而不是调整训练数据) 然后在下一条数据上再试一次 。 在训练过算法之后 , 用其来预测新的未来数据 。
我们需要做很多不同的事情来解决这个问题 , 例如在将模型用于实际之前测量模型的准确性 , 其基本原理很简单 。 在历史数据上进行训练 , 确认算法可以扩展到我们没有训练过的数据上 , 然后用算法进行预测 。
我们可以根据我们希望预测的变量类型进一步组织监督学习 。
(1)分类 监督学习的一个常见的任务就是分类 。 分类是用于预测被分类(类别为离散的有限值)的因变量的行为训练算法 。 最常见的情况就是二分类 , 只有两个组可以选择 。 一个标准例子就是垃圾邮件 。 我们可能有很多已经能被分为了两组的历史邮件 , 垃圾邮件和非垃圾邮件 。 使用这个历史数据 , 我们可以训练算法分析历史邮件中的词汇和任意数量的特性 , 并对其分类进行预测 。 当我们对其性能满意后 , 会用于预测算法没有见过的未来邮件数据 。
另一个分类的例子不是仅仅预测邮件是否为垃圾邮件 , 而会进一步尝试对邮件进行详细的分类 。 比如我们可能有四种不同的邮件类别:购物 , 私人 , 工作相关及其他 。 相应的历史数据也分类到这四种类别中 。 我们会训练一个算法 基于邮件内容(或来源)来预测它们的类别 , 然后运用训练后的算法到新数据上 。 当我们正确地做了这些事后 , 算法可以帮助组织一个人的收件箱到不同的组中 。 这个任务通常称为多类分类 。
推荐阅读
- 史笔如钢:中国教授提出2个疑点,或真有他人参与,BBC称兵马俑有希腊人手笔
- 『老谭世界百态』西方不说话了,中国战胜新冠投入了多少资金?专家说出一组数字
- 中国网科技@撤出液晶面板生产,三星将关闭两座工厂
- 「小飞猪的防务观察」蛟龙600需加快研制,西昌大火表明中国急缺灭火飞机
- 『强国兵器』中方协同美方开发AI工具,英国人:只有中国能做到,抗疫强力辅助
- #即科技#107国赞同票作废!,想“加入”联合国?中国使用一票否决
- 【台海网】美官员攻击中国成瘾!华春莹强势回应:这锅你甩不掉
- 「万域」晨光文具陈湖雄:造一支中国人自己的好笔
- 「晓卫双」泰国转身就卖给了美国?官方终于出面回应,中国捐的口罩刚落地
- 即科技■决定权掌握在中国手,?联合国五常将变六常?此国获美俄一致力挺
