#中国统计网#Spark高级分析指南 | 机器学习和分析流程详解(上)( 二 )


这有一些分类的用例:

  • 预测心脏疾病——医生或医院 会有 一组病人的关于行为了生理特征的历史数据集 。 他们可以用历史数据来训练算法(并评估其准确性及潜在的伦理问题)并用来预测一个病人是否患有严重的心脏疾病 。 这可以作为一个二分类(健康 , 不健康)或多类分类(健康 , 比较健康 , 不健康)的例子 。
  • 分类图像——有一些来自苹果 , 谷歌 , facebook等公司的应用 ,可以通过运行一个 根据你过去照片中的人物历史图像 所训练 人脸分类算法 来预测给定图片中的人是谁 。 一个普遍一点的用力可能是对图像进行分类 或对图像中的事务进行标记 。
  • 预测客户流失——一个更商业的应用案例 是预测客户流失 。 你可以用过去已经流失的客户数据 训练一个二分类器 , 用来尝试预测当前用户有没有可能流失 。
  • 买还是不买——一个公司可能想要预测一个用户是否会在他们的网站上购买产品 。 他们可以使用用户的购买习惯信息来指导预测 。
分类的不同用例有很多 , 而这只是一些小例子 。 关键的要求是你要有充足的数据用来训练你的算法 , 并且你还要有适当的评估标准 。 这些会在分类的章节进行讨论 。
(2)回归 在分类中 , 我们看到因变量只有一个离散的值集 。 在回归中 , 我们会设法预测一个连续变量(一个实数) , 用最简单的术语来描述 , 相比于预测一个类别 , 我们想要在数轴上预测一个数 。 这相比于二分类或多分类而言是一个更困难的工作 , 因为我们的结果可取自任意数量的值 , 而不只源于一个离散集 。 余下的基本都是相同的工作(这也就是为什么他们都是监督学习的一部分) , 我们会基于历史数据训练算法 来预测数据 。
(3)用例
  • 预测销售情况——一个商店可能会希望运用已有的历史数据估测给定时间段内的产品销量 。 这方面存在许多潜在的输入变量 , 但作为一个简单的例子 , 可以用最近一周的数据来预测接下来一天的数据 。
  • 预测高度——基于父母的身高 , 可能希望预测他们子女的身高 。
  • 预测一档节目的观众数——像Netflix这样的公司可能会基于以往节目的观众数目 , 来试图预测某档节目的观众数 , 以评判该节目的价值 。
分类 , 如我们做提到的 , 比分类更复杂但也更强大 。
2. 推荐系统推荐任务是最直观的之一 。 通过学习人们的显性偏好(通过评级)或隐性偏好(通过观察行为) , 你可以在一个用户可能会喜欢什么的问题上给出推荐 , 通过画出该用户和其他用户的相似之处 。 基于该结果 , 我们可以根据这个信息向另一个用户推荐 。 这是Spark的常用案例 , 并且非常适用大数据 。
用例:
推荐算法在现实世界中有广泛的应用 。 其中一个原因是构建一套历史的行为观测是非常简单的 。 此外 , 提供训练算法也很容易 , 其原因我们会在后面的部分进行讨论 。
  • 电影推荐——Netflix使用Spark , 通过学习用户喜欢的和不喜欢的电影 , 当用户登陆应用的时候向他们进行推荐电影 。 此外 , 还会考虑一个用户的评级与其他用户之间的相似程度 , 好为其推荐电影 。
  • 产品推荐——Amazon为了增加销量而运用产品推荐的手段 。 例如 , 基于用户购物车中的商品 , Amazon会推荐类似的其它商品给用户 。 另一项任务是通过协同过滤 , 通过人们的浏览行为来计算商品间的相似度 。
3. 非监督学习非监督学习是在给定的一组数据中寻找模式或发现底层结构的行为 。
这不同于监督学习 , 因为没有可用来训练模型的因变量 。 这使它成为一种更困难的高级分析任务 , 因为很难来测试准确性 。
用例:
非监督学习的目的不同于其他的任务 , 因为没有一个简单地测试效果的方法可以用来证明你的分析是正确的 。 通常 , 你不会运行一个非监督学习算法来进行预测 , 而是用于发现数据中的底层模式 , 并更好的理解用于定义数据中不同组的不同特性 。


推荐阅读