「Python」探索性数据分析——用Python表达EDA的一种快速方法( 二 ) |机器学习|社交网

右上角有两个明显的异常值。与其他数据相比，有两个国家的人口水平非常极端。可以验证观察分析“population”变量本身：
sns.kdeplot(df1['population'], shade=True, color='orangered')

本文插图

检测异常值的另一种方法是绘制一些箱形图：
df1.plot(kind='box', subplots=True, layout=(3,3), sharex=False, sharey=False, figsize=(20, 20), color='deeppink')

本文插图

还可以显示这些变量的密度图并分析其偏斜度：
df1.plot(kind='density', subplots=True, layout=(3,3), sharex=False, figsize=(20, 20))
本文插图

在这个例子中，我故意不处理离群值，但是有多种方法可以实现。
相关性关联变量将为您节省大量的分析时间，这是对数据执行任何假设之前的必要步骤。相关性只计算数值变量，因此了解数据集中的变量类型很重要。
mask = np.tril(df1.corr())sns.heatmap(df1.corr(), fmt='.1g', annot = True, cmap= 'cool', mask=mask)

本文插图

我屏蔽了左下角的值，以避免重复并提供更清晰的视图。右侧的值标度还提供了极值的快速参考指南：您可以轻松地发现变量之间的高低相关性。（例如“national income（国民收入）”与“purchasing power（购买力）”具有高度正相关）
结论【「Python」探索性数据分析——用Python表达EDA的一种快速方法】EDA对于理解任何数据集都是至关重要的。但是EDA需要做大量准备工作，因为现实世界中的数据很少是干净且同质的。人们常说，数据科学家宝贵的时间中有80％花费在查找、清理和组织数据上，而仅剩下20％的时间用于实际执行分析。

「Python」探索性数据分析——用Python表达EDA的一种快速方法( 二 )

推荐阅读

关于国庆节的对联大全关于国庆节的对联

儿科医生鲍秀兰|网友：变脸速度太快，萌娃幼儿园第一天看到妈妈的“神反应”亮了

草莓味的棉花糖|爱立信打脸华为！爱立信靠中国订单，Q2 财报优预期，股价大涨

零失败，一次就能成功的蒸米糕，好吃到转圈圈，家中有锅的都能做

做了无水酒精交感神经阻滞交感还有可能恢复如初吗

培根|好看又好吃创意满分！用火龙果榨汁做的玫红色披萨

东方网|国企改革三年行动央企“首改”出炉：东航集团股权多元化改革增资310亿元

素炒双脆的做法

幸福健康之路：右肩不举、酸痛，针刺验案：右病左取之（外一篇）

科技股：又到2850！明日决定方向！

被养废？曝汪小菲抱怨儿女拜金，称要钱才找我，疑S妥协交抚养权

求问yoyo大美人淘宝店是正品吗

『随风走起』附上符文表格，暗黑2符文系统不愧是最难玩的

图片怎么转换成PNG格式,图片怎么转化成png格式-

yamy公司会议录音|【围观吃瓜】yamy公司会议录音上热搜了？发生了什么？

男子被7根钢筋贯穿胸腹医护接力营救：再偏一点将戳破心脏

早盘■终于，A股迎来了独立行情

#科技X菌#它是首款塞班Anna机型，但外观设计引争议，更是诺基亚终结开始？

听说美国那边考驾照几十美元，我们这边报名费都上万了，汽油涨价，驾照也涨价。?

动漫2次方程式|没当过女主，连神级账号也不给，刀剑神域也搞差别待遇