[]如何使用Pandas-Profiling进行快速探索性数据分析
本文插图
当开始一个新的机器学习项目时 , 获得机器学习数据集之后的第一步就是要了解它 。 我们可以通过执行探索性数据分析(EDA)来实现这一点 。 这包括找出每个变量的数据类型、目标变量的分布、每个预测变量的不同值的数量、数据集中是否有重复值或缺失值等 。 进行EDA探索机器学习数据集的过程往往是非常耗时的 。
什么是Pandas-Profiling?
Pandas-profiling是一个开源Python库 , 它只需一行代码即可为任何机器学习数据集生成漂亮的交互式报告 。
pandas_profiling使用df.profile_report()扩展了DataFrame , 以便进行快速数据分析 。
每一列的以下统计数据(如果与列类型相关)都显示在交互式HTML报告中:
- 类型推断:检测DataFrame中列的类型 。
- 概要:类型 , 唯一值 , 缺失值
- 分位数统计信息 , 例如最小值 , Q1 , 中位数 , Q3 , 最大值 , 范围 , 四分位数范围
- 描述性统计数据 , 例如均值 , 众数 , 标准偏差 , 和 , 中位数绝对偏差 , 变异系数 , 峰度 , 偏度
- 最常使用的值
- 直方图
- 高度相关变量(Spearman , Pearson和Kendall矩阵)的相关性突出显示
- 缺失值矩阵 , 计数(count) , 热图和缺失值树状图
您可以使用pip软件包管理器通过以下命令进行安装:
pip install pandas-profiling[notebook,html] 您也可以直接从Github安装最新版本(https://github.com/pandas-profiling/pandas-profiling/archive/master.zip) 。
生成报告
在本文中 , 我将使用的机器学习数据集是Titanic 。
加载Python库
import pandas as pd import pandas_profiling from pandas_profiling import ProfileReport from pandas_profiling.utils.cache import cache_file导入机器学习数据集
file = cache_file(''titanic.csv'',''https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'') data = http://news.hoteastday.com/a/pd.read_csv(file) data.head()
本文插图
要生成报告 , 请运行以下Python代码 。
profile = ProfileReport(data, title=''Titanic Dataset'', html={'style': {'full_width': True}}, sort=''None'')
本文插图
将报告作为IFrame包含在Notebook中
profile.to_notebook_iframe()使用以下代码将报告另存为HTML文件:
profile.to_file(output_file=''your_report.html'')使用以下方式将数据保存为JSON:
# As a string json_data = http://news.hoteastday.com/a/profile.to_json() # As a file profile.to_file(output_file=''your_report.json'')结果
现在我们知道了如何使用pandas-profiling生成报告 , 让我们看一下结果 。
概要:
本文插图
Pandas_profiling通过计算预测变量的总缺失单元格、重复行、不同值的数量、缺失值、zeros来创建预测变量的描述性概述 。 它还在警告部分标记具有高基数或缺失值的变量 , 如上图所示 。
类分布
本文插图
数值特征:
推荐阅读
- 潍坊晚报|手机使用四年,凌晨自燃吓坏一家人
- 电脑数码精通|夏季如何让电脑的故障率降到最低?早知道早做准备吧
- 互联网的一些事|QuestMobile:2020 移动互联网人均使用时长同比增长 12.9%
- |为什么使用B+Tree?
- |支付宝面试题:如果你是支付宝的产品经理,如何让更多人用支付宝点外卖?
- |传统互联网产品经理正在消失,如何自救?
- 华南科技第一线|京东618,大学生换5G新机如何选?
- 毒草科技|如何挑选入门级智能录音笔?搜狗C1对比讯飞A1,谁更值得买?
- cnBetaTB|看机器人如何制作出既有颜值又美味的蛋饼
- 山东伟豪思|袋料全自动拆垛机器人的使用给企业带来了哪些益处
