#中国统计网#Spark高级分析指南 | 机器学习和分析流程详解(上)( 三 )
- 主题建模——给一组文档 , 我们会对这些文档中的不同次进行分析 , 来看看这些文档之间是否有一些底层的关联 。 以本书的结构为例 。 通过在各章节上 运行主题模型算法 , 我们会发现流章节不同于机器学习章节 , 因为在这两部分有完全不同的词汇 。
- 异常检验——随着时间推移 , 给定的标准时间类型会经常发生 , 我们想要 在非标准类型时间发生时进行报告 。
- 用户分类——给定一组用户行为 , 我们想要更好地了解 某一用户与其他用户共享哪些属性 。 例如 , 议价游戏公司可能根据 如 在特定游戏上的游戏时长 等特性来对用户进行分类算法 。 算法可能解释了游戏A的晚间也可能经常完游戏B 。 这会推动将此结论正式用于推荐系统 来为晚间提供其他游戏的推荐 。
图分析都是关于关系的 。
- 欺诈预测——Capital One使用Spark的图形分析功能来更好地理解欺诈网络 。 这包括使用不同的诈骗电话号、地址、或其他信息连接不同的人 , 并利用新信息来发觉新的诈骗性信息(或可疑信息) , 提前与欺诈作斗争 。
- 异常检测——通过观察个体网络是如何相互连接 , 异常值和异常现象可以被标记 来进行人工分析 。 比如 , 如果在我们的数据中 , 一个定点通常有10条边 , 而有一个定点只有一条边 , 那么就很值得调查 , 因为这是值得研究的奇怪现象 。
- 分类——已知一些网络中给定定点的事实 , 你可以根据 与原始节点的连接 来对各节点分类 。 例如 , 如果给定个体被标记为 公共网络中的有影响者 , 我们可以将其他有类似网络结构的个体分类为 影响者 。
- 推荐——谷歌的原始网络推荐算法 , PageRank , 就是一个图算法 , 其可以分析网站关系 用以提供网页重要性排名 。 作为一个例子 , 如果一个网页有很多指向他的连接 , 其会被排名为比没有指向连接的网站更重要 。
你的简历准备好了吗?
即将面试的小伙伴想赢在起跑线吗?
快来参与 应季 福利活动吧!
在评论区参与讨论今日话题
#你最喜欢的数据分析工具#
就有机会 免费获得原价99元的简历修改!
活动说明:
1. 本次活动随机抽取评论区3名用户获得奖励 2. 活动中奖名单将在明日15:00公布 没有参与的抓紧留言啦! 3. 刷评、无效评不作为参与名额活动时间:3月10日-3月13日
【#中国统计网#Spark高级分析指南 | 机器学习和分析流程详解(上)】
推荐阅读
- 史笔如钢:中国教授提出2个疑点,或真有他人参与,BBC称兵马俑有希腊人手笔
- 『老谭世界百态』西方不说话了,中国战胜新冠投入了多少资金?专家说出一组数字
- 中国网科技@撤出液晶面板生产,三星将关闭两座工厂
- 「小飞猪的防务观察」蛟龙600需加快研制,西昌大火表明中国急缺灭火飞机
- 『强国兵器』中方协同美方开发AI工具,英国人:只有中国能做到,抗疫强力辅助
- #即科技#107国赞同票作废!,想“加入”联合国?中国使用一票否决
- 【台海网】美官员攻击中国成瘾!华春莹强势回应:这锅你甩不掉
- 「万域」晨光文具陈湖雄:造一支中国人自己的好笔
- 「晓卫双」泰国转身就卖给了美国?官方终于出面回应,中国捐的口罩刚落地
- 即科技■决定权掌握在中国手,?联合国五常将变六常?此国获美俄一致力挺
