[湃绅Python]探索性数据分析——用Python表达EDA的一种快速方法( 二 ) 机器学习的讨论通常围绕算法及其性能：

文章图片
还可以显示这些变量的密度图并分析其偏斜度：
df1.plot(kind='density',subplots=True,layout=(3,3),sharex=False,figsize=(20,20))

文章图片
在这个例子中，我故意不处理离群值，但是有多种方法可以实现。
相关性关联变量将为您节省大量的分析时间，这是对数据执行任何假设之前的必要步骤。相关性只计算数值变量，因此了解数据集中的变量类型很重要。
mask=np.tril(df1.corr())sns.heatmap(df1.corr(),fmt='.1g',annot=True,cmap='cool',mask=mask)

文章图片
我屏蔽了左下角的值，以避免重复并提供更清晰的视图。右侧的值标度还提供了极值的快速参考指南：您可以轻松地发现变量之间的高低相关性。（例如“nationalincome（国民收入）”与“purchasingpower（购买力）”具有高度正相关）
结论EDA对于理解任何数据集都是至关重要的。但是EDA需要做大量准备工作，因为现实世界中的数据很少是干净且同质的。人们常说，数据科学家宝贵的时间中有80％花费在查找、清理和组织数据上，而仅剩下20％的时间用于实际执行分析。

[湃绅Python]探索性数据分析——用Python表达EDA的一种快速方法( 二 )

推荐阅读

短篇小说《洛浦孤舟泊岸》

男主|七本男主是偏执狂的小说，他病入膏肓，却对我爱的疯狂，甜炸了

疫情防控|北京日常防疫指引向广大市民公开征求意见建议

潮范搭配师|小腿一细一粗的，看的好尴尬，杨蓉修图太明显了

几何|LPR连续4个月“按兵不动” 对房贷利率换锚影响几何？

行业|轻工行业效益指标回暖明显

搜狐新闻陈根：Apple Watch新体验？无触控手势操作

千年金沙遗址对话玛雅文明文化盛宴中迎接新年

ACG残念君|当忍者们变成机械风之后，卡卡西霸气依旧，佐助变丑

十号风球|3-2险胜！巴萨猎物大爆发，身价恐要上涨？，13分钟造球

球叮足球德甲最新积分榜：欧联16强1-3惨遭重大打击！连续4场保持全败纪录

【】大理洱海被倾倒高浓度酸性液体官方：责令消除污染

中美关系|俄学者：俄美冲突的经验教训，中国可借鉴

「心血管罗建方教授」肾缺血会引起高血压吗？高血压与肾脏病其实就是一对难兄难弟

中芯国际|中芯国际：梁孟松不再担任执行董事、蒋尚义辞任副董事长

小西瓜瓜|不是好就得会，不会还是另有原因？朱婷受采访针对跳发球道出答案

大河财立方|李朝春辞任，洛阳钼业换帅！袁宏林任董事长

战术|CF电竞人物：初代战术大师，带领队伍2:7极限翻盘，汉宫之魂年鹏

现在农村家庭有5万元存款，是富有还是拖后腿呢

塑形衣：产后塑身衣穿多长时间