「Python」探索性数据分析——用Python表达EDA的一种快速方法( 二 )
右上角有两个明显的异常值 。 与其他数据相比 , 有两个国家的人口水平非常极端 。 可以验证观察分析“population”变量本身: sns.kdeplot(df1['population'], shade=True, color='orangered')
本文插图
检测异常值的另一种方法是绘制一些箱形图: df1.plot(kind='box', subplots=True, layout=(3,3), sharex=False, sharey=False, figsize=(20, 20), color='deeppink')
本文插图
还可以显示这些变量的密度图并分析其偏斜度: df1.plot(kind='density', subplots=True, layout=(3,3), sharex=False, figsize=(20, 20))
本文插图
在这个例子中 , 我故意不处理离群值 , 但是有多种方法可以实现 。
相关性关联变量将为您节省大量的分析时间 , 这是对数据执行任何假设之前的必要步骤 。 相关性只计算数值变量 , 因此了解数据集中的变量类型很重要 。mask = np.tril(df1.corr())sns.heatmap(df1.corr(), fmt='.1g', annot = True, cmap= 'cool', mask=mask)
本文插图
我屏蔽了左下角的值 , 以避免重复并提供更清晰的视图 。 右侧的值标度还提供了极值的快速参考指南:您可以轻松地发现变量之间的高低相关性 。 (例如“national income(国民收入)”与“purchasing power(购买力)”具有高度正相关)
结论【「Python」探索性数据分析——用Python表达EDA的一种快速方法】EDA对于理解任何数据集都是至关重要的 。 但是EDA需要做大量准备工作 , 因为现实世界中的数据很少是干净且同质的 。 人们常说 , 数据科学家宝贵的时间中有80%花费在查找、清理和组织数据上 , 而仅剩下20%的时间用于实际执行分析 。
推荐阅读
- 语言最红语言Python跌落榜三,Rust最受喜爱!Stack Overflow 2020报告出炉
- CSDN|儿童节教你用 Python 画出童年回忆
- 新智元|机器学习团队常用工具总结,人生苦短,我用Python!
- 工具机器学习团队常用工具总结,人生苦短,我用Python!
- |从Excel中解救你!如何用Python实现报表自动化
- 大斌看电视|618排行榜之数码篇,大数据分析,数码宅乐购的618数码前3
- 不正经d玩家|2020 开发者调查:TypeScript 最受欢迎击败 Python,Scala 最赚
- 千锋上海|学习Python语言具应用领域有哪些?
- 自己动手「焊」键盘,使用Python编写,一键放连招不在话下
- 0772-1.7.2-如何让CDSW的PySpark自动适配Python版本
