[]如何使用Pandas-Profiling进行快速探索性数据分析

本文插图

当开始一个新的机器学习项目时，获得机器学习数据集之后的第一步就是要了解它。我们可以通过执行探索性数据分析(EDA)来实现这一点。这包括找出每个变量的数据类型、目标变量的分布、每个预测变量的不同值的数量、数据集中是否有重复值或缺失值等。进行EDA探索机器学习数据集的过程往往是非常耗时的。
什么是Pandas-Profiling？
Pandas-profiling是一个开源Python库，它只需一行代码即可为任何机器学习数据集生成漂亮的交互式报告。
pandas_profiling使用df.profile_report()扩展了DataFrame ，以便进行快速数据分析。
每一列的以下统计数据(如果与列类型相关)都显示在交互式HTML报告中:

类型推断：检测DataFrame中列的类型。
概要：类型，唯一值，缺失值
分位数统计信息，例如最小值， Q1 ，中位数， Q3 ，最大值，范围，四分位数范围
描述性统计数据，例如均值，众数，标准偏差，和，中位数绝对偏差，变异系数，峰度，偏度
最常使用的值
直方图
高度相关变量（Spearman ， Pearson和Kendall矩阵）的相关性突出显示
缺失值矩阵，计数（count），热图和缺失值树状图

安装Pandas-profiling
您可以使用pip软件包管理器通过以下命令进行安装：
pip install pandas-profiling[notebook,html] 您也可以直接从Github安装最新版本（https://github.com/pandas-profiling/pandas-profiling/archive/master.zip）。
生成报告
在本文中，我将使用的机器学习数据集是Titanic 。
加载Python库
import pandas as pd import pandas_profiling from pandas_profiling import ProfileReport from pandas_profiling.utils.cache import cache_file导入机器学习数据集
file = cache_file(''titanic.csv'',''https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'') data = http://news.hoteastday.com/a/pd.read_csv(file) data.head()

本文插图

要生成报告，请运行以下Python代码。
profile = ProfileReport(data, title=''Titanic Dataset'', html={'style': {'full_width': True}}, sort=''None'')

本文插图

将报告作为IFrame包含在Notebook中
profile.to_notebook_iframe()使用以下代码将报告另存为HTML文件：
profile.to_file(output_file=''your_report.html'')使用以下方式将数据保存为JSON：
# As a string json_data = http://news.hoteastday.com/a/profile.to_json() # As a file profile.to_file(output_file=''your_report.json'')结果
现在我们知道了如何使用pandas-profiling生成报告，让我们看一下结果。
概要：