[湃绅Python]探索性数据分析——用Python表达EDA的一种快速方法( 二 )
文章图片
还可以显示这些变量的密度图并分析其偏斜度:
df1.plot(kind='density',subplots=True,layout=(3,3),sharex=False,figsize=(20,20))![[湃绅Python]探索性数据分析——用Python表达EDA的一种快速方法](/uploads/allimg/200505/12245JO1-10.jpg)
文章图片
在这个例子中 , 我故意不处理离群值 , 但是有多种方法可以实现 。
相关性关联变量将为您节省大量的分析时间 , 这是对数据执行任何假设之前的必要步骤 。 相关性只计算数值变量 , 因此了解数据集中的变量类型很重要 。
mask=np.tril(df1.corr())sns.heatmap(df1.corr(),fmt='.1g',annot=True,cmap='cool',mask=mask)![[湃绅Python]探索性数据分析——用Python表达EDA的一种快速方法](/uploads/allimg/200505/12245H049-11.jpg)
文章图片
我屏蔽了左下角的值 , 以避免重复并提供更清晰的视图 。 右侧的值标度还提供了极值的快速参考指南:您可以轻松地发现变量之间的高低相关性 。 (例如“nationalincome(国民收入)”与“purchasingpower(购买力)”具有高度正相关)
结论EDA对于理解任何数据集都是至关重要的 。 但是EDA需要做大量准备工作 , 因为现实世界中的数据很少是干净且同质的 。 人们常说 , 数据科学家宝贵的时间中有80%花费在查找、清理和组织数据上 , 而仅剩下20%的时间用于实际执行分析 。
推荐阅读
- 埃尔法哥哥我学python的一点感受
- Python小镇Python必备技能:用pandas读Excel常见操作
- 「Python」小卖家也能月入5000+的方法
- Python爱好者社区漫画 | 程序员逆天改命
- Python爱好者社区| 程序员逆天改命,漫画
- 全民学Python的热潮,风变编程带你领略它的独特魅力
- 埃尔法哥哥python教程:TF模型部署的特点
- Python:2019年,这24000程序员是如何使用Python的?
- [编程]TIOBE 5 月编程语言排行榜:C语言跑到第一,python连续两年上涨
- Python1怎样解决虚拟内存不足问题
