[]如何使用Pandas-Profiling进行快速探索性数据分析



[]如何使用Pandas-Profiling进行快速探索性数据分析
本文插图

当开始一个新的机器学习项目时 , 获得机器学习数据集之后的第一步就是要了解它 。 我们可以通过执行探索性数据分析(EDA)来实现这一点 。 这包括找出每个变量的数据类型、目标变量的分布、每个预测变量的不同值的数量、数据集中是否有重复值或缺失值等 。 进行EDA探索机器学习数据集的过程往往是非常耗时的 。
什么是Pandas-Profiling?
Pandas-profiling是一个开源Python库 , 它只需一行代码即可为任何机器学习数据集生成漂亮的交互式报告 。
pandas_profiling使用df.profile_report()扩展了DataFrame , 以便进行快速数据分析 。
每一列的以下统计数据(如果与列类型相关)都显示在交互式HTML报告中:

  • 类型推断:检测DataFrame中列的类型 。
  • 概要:类型 , 唯一值 , 缺失值
  • 分位数统计信息 , 例如最小值 , Q1 , 中位数 , Q3 , 最大值 , 范围 , 四分位数范围
  • 描述性统计数据 , 例如均值 , 众数 , 标准偏差 , 和 , 中位数绝对偏差 , 变异系数 , 峰度 , 偏度
  • 最常使用的值
  • 直方图
  • 高度相关变量(Spearman , Pearson和Kendall矩阵)的相关性突出显示
  • 缺失值矩阵 , 计数(count) , 热图和缺失值树状图
安装Pandas-profiling
您可以使用pip软件包管理器通过以下命令进行安装:
pip install pandas-profiling[notebook,html] 您也可以直接从Github安装最新版本(https://github.com/pandas-profiling/pandas-profiling/archive/master.zip) 。
生成报告
在本文中 , 我将使用的机器学习数据集是Titanic 。
加载Python库
import pandas as pd import pandas_profiling from pandas_profiling import ProfileReport from pandas_profiling.utils.cache import cache_file导入机器学习数据集
file = cache_file(''titanic.csv'',''https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'') data = http://news.hoteastday.com/a/pd.read_csv(file) data.head()
[]如何使用Pandas-Profiling进行快速探索性数据分析
本文插图

要生成报告 , 请运行以下Python代码 。
profile = ProfileReport(data, title=''Titanic Dataset'', html={'style': {'full_width': True}}, sort=''None'')[]如何使用Pandas-Profiling进行快速探索性数据分析
本文插图

将报告作为IFrame包含在Notebook中
profile.to_notebook_iframe()使用以下代码将报告另存为HTML文件:
profile.to_file(output_file=''your_report.html'')使用以下方式将数据保存为JSON:
# As a string json_data = http://news.hoteastday.com/a/profile.to_json() # As a file profile.to_file(output_file=''your_report.json'')结果
现在我们知道了如何使用pandas-profiling生成报告 , 让我们看一下结果 。
概要:
[]如何使用Pandas-Profiling进行快速探索性数据分析
本文插图


Pandas_profiling通过计算预测变量的总缺失单元格、重复行、不同值的数量、缺失值、zeros来创建预测变量的描述性概述 。 它还在警告部分标记具有高基数或缺失值的变量 , 如上图所示 。
类分布
[]如何使用Pandas-Profiling进行快速探索性数据分析
本文插图

数值特征:
[]如何使用Pandas-Profiling进行快速探索性数据分析


推荐阅读