空枝|使用Pandas数据处理与分析( 五 )
5.数据可视化数据可视化的作用很多 , 而最常用的一般有两种功能:其一是对原始数据的探索性分析(EDA) , 其二是对结果数据的数据分析结果呈现 。
1.探索性分析直方图
直方图是用来整理计量值的观测数据 , 分析其分布状态的统计方法 , 用于对总体的分布特征进行推断 。 直方图的作用很多 , 统计中最一般用来检验数据分布的类型 , 分析数据是否服从正态分布 , 判断数据有无异常等 。
简单代码如下:
from pylab import *mpl.rcParams['font.sans-serif'] = ['SimHei'] #指定默认字体 #解决保存图像是负号'-'显示为方块的问题mpl.rcParams['axes.unicode_minus'] = False plt.subplots_adjust(wspace =0.2, hspace =1)plt.subplot(321)plt.hist(data['月销量'])plt.xlabel('月销量')plt.subplot(322)plt.hist(data['现价'])plt.xlabel('现价')plt.subplot(323)plt.hist(data['原价'])plt.xlabel('原价')plt.subplot(324)plt.hist(data['累计评价'])plt.xlabel('累计评价')plt.subplot(325)plt.hist(data['收藏'])plt.xlabel('收藏')plt.subplot(326)plt.hist(data['天猫积分'])plt.xlabel('天猫积分')plt.savefig('hist1.png',dpi=200)plt.show()显然数据不服从正态分布 , 数据波动大 , 异常值突出等情况明显 。
箱线图
箱线图 , 是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法 , 它也可以粗略地看出数据是否具有有对称性 , 分布的分散程度等信息 , 特别可以用于对数据异常值的诊断 。
plt.subplots_adjust(wspace =0.2, hspace =1)plt.subplot(321)plt.boxplot(data['月销量'])plt.xlabel('月销量')plt.subplot(322)plt.boxplot(data['现价'])plt.xlabel('现价')plt.subplot(323)plt.boxplot(data['原价'])plt.xlabel('原价')plt.subplot(324)plt.boxplot(data['累计评价'])plt.xlabel('累计评价')plt.subplot(325)plt.boxplot(data['收藏'])plt.xlabel('收藏')plt.subplot(326)plt.boxplot(data['天猫积分'])plt.xlabel('天猫积分')plt.savefig('boxplot1.png',dpi=200)plt.show()由此可见 , 数据预处理是多么重要 。
2.数据分析结果呈现条形图(柱状图)
条形图(柱状图)能体现每组中的具体数据 , 易比较数据之间的差别 。
散点图
利用散点(坐标点)的分布形态反映变量统计关系的一种图形 。 特点是能直观表现出影响因素和预测对象之间的总体关系趋势 。 优点是能通过直观醒目的图形方式反映变量间关系的变化形态 , 以便决定用何种数学表达方式来模拟变量之间的关系 。 散点图不仅可传递变量间关系类型的信息 , 也能反映变量间关系的明确程度 。
plt.subplots_adjust(wspace =0.2, hspace =1)plt.subplot(321)plt.scatter(data1['现价'],data1['月销量'])plt.xlabel('现价')plt.ylabel('月销量')plt.subplot(322)plt.scatter(data1['优惠力度'],data1['月销量'])plt.xlabel('优惠力度')plt.ylabel('月销量')plt.subplot(323)plt.scatter(data1['累计评价'],data1['月销量'])plt.xlabel('累计评价')plt.ylabel('月销量')plt.subplot(324)plt.scatter(data1['收藏'],data1['月销量'])plt.xlabel('收藏')plt.ylabel('月销量')plt.subplot(325)plt.scatter(data1['天猫积分'],data1['月销量'])plt.xlabel('天猫积分')plt.ylabel('月销量')plt.subplot(326)plt.scatter(data1['店铺描述'],data1['月销量'])plt.xlabel('店铺描述')plt.ylabel('月销量')plt.savefig('scatter1.png',dpi=200)plt.show()
推荐阅读
- 美食工坊|而有一个很唯美的名字,日本仍保留使用,古代的苹果不叫“苹果”
- 航天器|中国可重复使用航天器刚发射成功,美媒就来乱弹琴:或是太空武器
- 皮肤|CSGO:最贵皮肤无一入选?这几款手感满分,更适合USP使用
- 军事|外媒关注中国发射“可重复使用试验航天器”:保密程度高于常规
- 医保基金|山东通报16起医保基金违规使用或欺诈骗保典型案例 涉违规收费等问题
- 央视新闻客户端|支持世界田联反兴奋剂新计划 肯尼亚拟定使用兴奋剂违法
- 客货运输|中国民航局拟批准东方航空独资筹建一二三航空 使用ARJ21-700飞机
- 经营|中国民航局拟批准东方航空独资筹建一二三航空 使用ARJ21-700飞机
- 幼儿园不得教授小学教育内容|学前教育法草案:幼儿园不得使用教科书 不得教授小学教育内容
- 航天器|热烈祝贺!我国可重复使用试验航天器成功着陆!
