@异常检测怎么做，试试孤立随机森林算法（附代码）( 三 )

类似的，可以对训练后的模型调用 predict() 函数，并传入工资作为参数，找到异常列的值。
将这两列添加到数据框 df 中。添加完这两列后，查看数据框。如我们所料，数据框现在有三列：工资、分数和异常值。分数列中的负值和异常列中的 -1 表示出现异常。异常列中的 1 表示正常数据。
这个算法给训练集中的每个数据点都分配了异常分数。可以定义阈值，根据异常分数，如果分数高于预定义的阈值，就可以将这个数据点标记为异常。df['scores']=model.decision_function(df[['salary']]) df['anomaly']=model.predict(df[['salary']]) df.head(20)

文章图片

文章图片

给数据的每一行中都添加了分数和异常值后，就可以打印预测的异常了。
打印异常
为了打印数据中预测得到的异常，在添加分数列和异常列后要分析数据。如前文所述，预测的异常在预测列中的值为 -1 ，分数为负数。根据这一信息，将预测的异常（本例中是两个数据点）打印如下。anomaly=df.loc[df['anomaly']==-1] anomaly_index=list(anomaly.index) print(anomaly)
异常输出。
注意，这样不仅能打印异常值，还能打印异常值在数据集中的索引，这对于进一步处理是很有用的。
评估模型
【@异常检测怎么做，试试孤立随机森林算法（附代码）】为了评估模型，将阈值设置为工资>99999 的为离群值。用以下代码找出数据中存在的离群值：outliers_counter=len(df[df['salary']>99999]) outliers_counter
计算模型找到的离群值数量除以数据中的离群值数量，得到模型的准确率。print("Accuracypercentage:",100*list(df['anomaly']).count(-1)/(outliers_counter))
准确率：100%
尾注
本教程内容包括：什么是离群值以及如何用孤立森林算法检测离群值。还讨论了针对该问题的不同的探索性数据分析图，比如小提琴图和箱图。
最终我们实现了孤立森林算法，并打印出了数据中真正的离群值。希望你喜欢这篇文章，并希望这篇文章能在未来的项目中帮到你。

@异常检测怎么做，试试孤立随机森林算法（附代码）( 三 )

推荐阅读

沧县一文明村办大鼓交流大会吸引7县市20支鼓队参加

甜乐影视|句句穿心，真的太经典了，有道理的说说心情短语

#十二星座天蝎座吧#有你吗？，最佳好闺蜜top3

央视新闻客户端|首批基础学科拔尖学生培养计划2.0基地名单公布

汤镇宗■马国明女友为爸爸汤镇宗庆生，红裙惊艳，与妹妹一个像爸一个像妈

[好处]社保没交满？那你有福了，这些好处赶紧了解一下！

为什么头皮上长痘痘

结婚|八月份运势增旺，财运爆棚，三生肖财运稳升，钞票满天飞

手机丢失，原来已经这么可怕了

[上苑柳农时]解决无数男女的烦心事，还有人花冤枉钱！，剥掉的“蛋壳”不要丢

马超|夏洛特的“减攻速”机制，效果：敌人负攻速，普攻消失

特朗普■特朗普频频与确诊患者接触，为何还能安然无恙？真相从此揭晓。

儿童房|儿童房需要安装新风系统吗？儿童房有哪些注意事项

越南|为向美国表忠心，单方面表示对华停飞，如今每个月损失上百亿！

IT之家DCH 显卡驱动程序更新支持 Win10 版本 2004，Intel

第一代iPod touch原型曝光：采用Mac Pro亮面黑色工艺

环球时报|世卫组织：将评估其安全性，俄罗斯注册全球首款新冠疫苗

潇湘大视野将面临一个史上“最坏的结果”！，美国

马克西姆西餐厅订餐电话马克西姆西餐厅

海南日报|我省本月将开展脱贫攻坚大比武活动