#中国统计网#Spark高级分析指南 | 机器学习和分析流程详解(上)( 三 )


  • 主题建模——给一组文档 , 我们会对这些文档中的不同次进行分析 , 来看看这些文档之间是否有一些底层的关联 。 以本书的结构为例 。 通过在各章节上 运行主题模型算法 , 我们会发现流章节不同于机器学习章节 , 因为在这两部分有完全不同的词汇 。
  • 异常检验——随着时间推移 , 给定的标准时间类型会经常发生 , 我们想要 在非标准类型时间发生时进行报告 。
  • 用户分类——给定一组用户行为 , 我们想要更好地了解 某一用户与其他用户共享哪些属性 。 例如 , 议价游戏公司可能根据 如 在特定游戏上的游戏时长 等特性来对用户进行分类算法 。 算法可能解释了游戏A的晚间也可能经常完游戏B 。 这会推动将此结论正式用于推荐系统 来为晚间提供其他游戏的推荐 。
4. 图分析不如之前的任务那么常见 , 图分析在高级分析用例中会看到 。 图分析可以为上述任务提供替代方法 。 不论如何 , 这不会使上述方法变得没有价值或被废除 , 应将其视为一个可替换的构建问题的不同方法 。 从根本上来说 , 图分析是对关系的学习 , 我们指定vertices为对象 , edges代表对象之间的关系 。 通过观察vertices和edges的特性 , 我们可以更好地学习不同vertices和edges的关系和相似点 。
图分析都是关于关系的 。
  • 欺诈预测——Capital One使用Spark的图形分析功能来更好地理解欺诈网络 。 这包括使用不同的诈骗电话号、地址、或其他信息连接不同的人 , 并利用新信息来发觉新的诈骗性信息(或可疑信息) , 提前与欺诈作斗争 。
  • 异常检测——通过观察个体网络是如何相互连接 , 异常值和异常现象可以被标记 来进行人工分析 。 比如 , 如果在我们的数据中 , 一个定点通常有10条边 , 而有一个定点只有一条边 , 那么就很值得调查 , 因为这是值得研究的奇怪现象 。
  • 分类——已知一些网络中给定定点的事实 , 你可以根据 与原始节点的连接 来对各节点分类 。 例如 , 如果给定个体被标记为 公共网络中的有影响者 , 我们可以将其他有类似网络结构的个体分类为 影响者 。
  • 推荐——谷歌的原始网络推荐算法 , PageRank , 就是一个图算法 , 其可以分析网站关系 用以提供网页重要性排名 。 作为一个例子 , 如果一个网页有很多指向他的连接 , 其会被排名为比没有指向连接的网站更重要 。
疫情过去后的 招聘季 马上就要来啦!
你的简历准备好了吗?
即将面试的小伙伴想赢在起跑线吗?
快来参与 应季 福利活动吧!
在评论区参与讨论今日话题
#你最喜欢的数据分析工具#
就有机会 免费获得原价99元的简历修改!
活动说明:
1. 本次活动随机抽取评论区3名用户获得奖励 2. 活动中奖名单将在明日15:00公布 没有参与的抓紧留言啦! 3. 刷评、无效评不作为参与名额活动时间:3月10日-3月13日
【#中国统计网#Spark高级分析指南 | 机器学习和分析流程详解(上)】


推荐阅读