@异常检测怎么做，试试孤立随机森林算法（附代码）( 二 )

这一算法也适用于小数据集。
接着我们对数据做一些探索性分析，以了解给定数据的相关信息。
探索性数据分析
先导入所需的库。导入 numpy、pandas、seaborn 和 matplotlib 。此外还要从 sklearn.ensemble 中导入孤立森林（IsolationForest）。importnumpyasnp importpandasaspd importseabornassns importmatplotlib.pyplotasplt fromsklearn.ensembleimportIsolationForest
导入库后，要将 csv 数据读取为 padas 数据框，检查前十行数据。
本文所用数据是不同职业的人的年薪（美元）。数据中有一些异常值（比如工资太高或太低），目标是检测这些异常值。df=pd.read_csv('salary.csv') df.head(10)

文章图片

文章图片

数据集表头。
为了更好地了解数据，将工资数据绘制成小提琴图，如下图所示。小提琴图是一种绘制数值数据的方法。
通常，小提琴图包含箱图中所有数据——中位数的标记和四分位距的框或标记，如果样本数量不太大，图中可能还包括所有样本点。

文章图片

文章图片

工资的小提琴图。
为了更好地了解离群值，可能还会查看箱图。箱图一般也称为箱线图。箱图中的箱子显示了数据集的四分位数，线表示剩余的分布。线不表示确定为离群值的点。
我们通过 interquartile range, 的函数检测离群值。在统计数据中， interquartile range ，（也称为 midspread 或 middle 50%）是度量统计学分散度的指标，等于第 75% 个数和第 25% 个数的差。

文章图片

文章图片

工资的箱图，指示了右侧的两个离群值。
完成数据的探索性分析后，就可以定义并拟合模型了。
定义及拟合模型
我们要创建一个模型变量，并实例化 IsolationForest（孤立森林）类。将这四个参数的值传递到孤立森林方法中，如下所示。
评估器数量：n_estimators 表示集成的基评估器或树的数量，即孤立森林中树的数量。这是一个可调的整数参数，默认值是 100；
最大样本：max_samples 是训练每个基评估器的样本的数量。如果 max_samples 比样本量更大，那么会用所用样本训练所有树。max_samples 的默认值是『auto』。如果值为『auto』的话，那么 max_samples=min(256, n_samples)；
数据污染问题：算法对这个参数非常敏感，它指的是数据集中离群值的期望比例，根据样本得分拟合定义阈值时使用。默认值是『auto』。如果取『auto』值，则根据孤立森林的原始论文定义阈值；
最大特征：所有基评估器都不是用数据集中所有特征训练的。这是从所有特征中提出的、用于训练每个基评估器或树的特征数量。该参数的默认值是 1 。model=IsolationForest(n_estimators=50,max_samples='auto',contamination=float(0.1),max_features=1.0) model.fit(df[['salary']])
孤立森林模型训练输出。
模型定义完后，就要用给定的数据训练模型了，这是用 fit() 方法实现的。这个方法要传入一个参数——使用的数据（在本例中，是数据集中的工资列）。
正确训练模型后，将会输出孤立森林实例（如图所示）。现在可以添加分数和数据集的异常列了。
添加分数和异常列
在定义和拟合完模型后，找到分数和异常列。对训练后的模型调用 decision_function() ，并传入工资作为参数，找出分数列的值。

@异常检测怎么做，试试孤立随机森林算法（附代码）( 二 )

推荐阅读

生活|牙膏加“2物”，效果非常实用，老婆都忍不住点赞，认为你特别厉害

红色江西快讯|惠民“一卡通”“民生资金监管平台”两大平台惠及千家万户

『英国英鸟』哈里：想到跟岳母同住就开心，梅根洛杉矶寻购千万豪宅邀母亲来住

广州恒大|国足归化球星爆发！艾克森轰任意球世界波，王大雷极限扑救无用功

水星|明明水星比金星距离太阳近，为何金星被烤干，水星有上亿吨冰？

布刀剪头石你懂了吗布刀剪头石是什么意思

[做件衣服]学会花样穿裙子，裙子如何搭配？14套知性优雅气质组合推荐给你

与君初相识剧情介绍42集与君初相识剧情介绍

|亏损近35个亿，耐克力邀李佳琦合作后仍卖不动，究竟输在哪里？

京东|花呗借出3000亿，某些用户为“逃债”卸载支付宝，马云回复3个字

翡翠|翡翠的价格不断上涨，投资的人也更多了，但要注意分辨品质和真假

北青网综合|类风湿性关节炎如何护理？这5点要谨记

你的早餐吃对了吗？早饭吃饱不代表“吃好”这样搭配才营养均衡

气球葡萄怎么编，守望的天空中墨理和葡萄在第几集相遇

炫彩异常！金晨多巴胺眼妆好闪

【中国商网】外贸原单可以在网上随便“买买买”了，外贸企业转内销

巨蟹座|11月份桃花朵朵开，有望遇到真爱的四大星座，和爱人生活甜蜜！

女生|盘点16岁女生必备日常好物，平价还这么好用！

萌明明说娱乐|由此可见动物也是有颜值的……，搞笑GIF：第一次见这么秀气的猪

奶茶店红茶泡时间,小柠红茶怎么泡