[]如何使用Pandas-Profiling进行快速探索性数据分析( 二 )

本文插图

对于数值特征，除了有均值、标准差、最小值、最大值、四分位距(IQR)等详细统计外，还绘制了直方图，给出了常用值和极值的列表。
分类特征：
与数字特征类似，对于分类特征，它会计算通用值，长度，字符等。

本文插图

交互
在交互部分， pandas_profiling库自动为每一对变量生成交互图。您可以通过从两个标题中选择特定的变量来获取任何一对的交互关系图。

本文插图

相关矩阵：
相关性是一种统计技术，它可以显示变量对之间是否相关以及如何相关。
相关的主要结果称为相关系数(或“r”) 。它的范围是从-1.0到+1.0 。 r越接近+1（或-1) ，这两个变量的关系就越密切。如果r接近0 ，这意味着变量之间不相关。如果r是正的，这意味着一个变量变大，另一个变大。如果r是负的，这意味着随着一个变大，另一个变小(通常称为“逆相关”) 。
在生成所有数值特征的相关矩阵时， pandas_profiling库为我们提供了所有流行的选项，包括Pearson的r ， Spearman的ρ等。

本文插图

缺点
pandas-profiling的主要缺点是针对大型机器学习数据集。随着数据量的增加，生成报告的时间也增加了很多。
解决此问题的一种方法是为数据集的一部分生成概要报告。但是在执行此操作时，确保对数据进行随机采样非常重要，这样它才能代表我们拥有的所有数据。我们可以这样做：
from pandas_profiling import ProfileReport # Generate report for 10000 data points profile = ProfileReport(data.sample(n = 10000), title=''Titanic Data set'', html={'style': {'full_width': True}}, sort=''None'') # save to file profile.to_file(output_file='10000datapoints.html')【[]如何使用Pandas-Profiling进行快速探索性数据分析】如果您坚持要获得关于整个数据集的报告，您可以使用最小模式来实现这一点。在最小模式下，生成的简化报告比完整报告的信息要少，但对于大型数据集，生成的速度相对较快。简化报告的代码如下:
profile = ProfileReport(large_dataset, minimal=True) profile.to_file(output_file=''output.html'')

[]如何使用Pandas-Profiling进行快速探索性数据分析( 二 )

推荐阅读

反重力评测|你怎么选？，苹果也开始玩价格战！相比下国产旗舰却越来越贵

中关村在线剁手清单拿走不谢创维电视十一大促别错过

【车友料】价格亲民实力高，车主都说香死了

智通财经|美联国际教育(METX.US)将于北京时间8月29日公布Q2业绩

笔记本电脑键盘输入乱了笔记本电脑键盘错乱怎么解决

「美方」朝方警告美国停止发出针对朝鲜的刺激性言论

湛江|湛江人信奉的发达秘诀，“一命二运三风水”，吴川土豪验证成功

一年四季怎么划分月份？

刘忠斌：让民法典精髓根植每个人心田

萝卜|炸丸子只知道用面粉，加上它，炸出来的丸子外酥里嫩，凉了也不硬

美国邮政|老人遗愿与妻合葬，寄回骨灰却破个大洞，家人痛斥美国邮政：现在他真走了

右脚背筋疼是怎么回事

BIM知识■基于BIM的个人职业规划

怎样不秃顶|中国电影史上第一个票房破百亿的90后男演员泛起了

FLIGHTCLUB中文站|藤原浩晒权志龙 AF1 2.0！发售日期也确定了！

人民日报客户端|崔天凯：站到历史正确一边，推动中美关系重返正轨

北京有哪些好吃不贵、适合一家人吃的餐厅？

挖出|大明宫修建之时，挖出了一枚奇怪的铜镜，竟能映出人的五脏六腑

咖喱面的做法介绍

中新网视频|航拍太行山顶的“空中草原”