空枝|使用Pandas数据处理与分析( 五 )

5.数据可视化数据可视化的作用很多 , 而最常用的一般有两种功能:其一是对原始数据的探索性分析(EDA) , 其二是对结果数据的数据分析结果呈现 。
1.探索性分析直方图
直方图是用来整理计量值的观测数据 , 分析其分布状态的统计方法 , 用于对总体的分布特征进行推断 。 直方图的作用很多 , 统计中最一般用来检验数据分布的类型 , 分析数据是否服从正态分布 , 判断数据有无异常等 。
简单代码如下:
from pylab import *mpl.rcParams['font.sans-serif'] = ['SimHei'] #指定默认字体 #解决保存图像是负号'-'显示为方块的问题mpl.rcParams['axes.unicode_minus'] = False plt.subplots_adjust(wspace =0.2, hspace =1)plt.subplot(321)plt.hist(data['月销量'])plt.xlabel('月销量')plt.subplot(322)plt.hist(data['现价'])plt.xlabel('现价')plt.subplot(323)plt.hist(data['原价'])plt.xlabel('原价')plt.subplot(324)plt.hist(data['累计评价'])plt.xlabel('累计评价')plt.subplot(325)plt.hist(data['收藏'])plt.xlabel('收藏')plt.subplot(326)plt.hist(data['天猫积分'])plt.xlabel('天猫积分')plt.savefig('hist1.png',dpi=200)plt.show()
空枝|使用Pandas数据处理与分析显然数据不服从正态分布 , 数据波动大 , 异常值突出等情况明显 。
箱线图
箱线图 , 是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法 , 它也可以粗略地看出数据是否具有有对称性 , 分布的分散程度等信息 , 特别可以用于对数据异常值的诊断 。
plt.subplots_adjust(wspace =0.2, hspace =1)plt.subplot(321)plt.boxplot(data['月销量'])plt.xlabel('月销量')plt.subplot(322)plt.boxplot(data['现价'])plt.xlabel('现价')plt.subplot(323)plt.boxplot(data['原价'])plt.xlabel('原价')plt.subplot(324)plt.boxplot(data['累计评价'])plt.xlabel('累计评价')plt.subplot(325)plt.boxplot(data['收藏'])plt.xlabel('收藏')plt.subplot(326)plt.boxplot(data['天猫积分'])plt.xlabel('天猫积分')plt.savefig('boxplot1.png',dpi=200)plt.show()
空枝|使用Pandas数据处理与分析由此可见 , 数据预处理是多么重要 。
2.数据分析结果呈现条形图(柱状图)
条形图(柱状图)能体现每组中的具体数据 , 易比较数据之间的差别 。
空枝|使用Pandas数据处理与分析散点图
利用散点(坐标点)的分布形态反映变量统计关系的一种图形 。 特点是能直观表现出影响因素和预测对象之间的总体关系趋势 。 优点是能通过直观醒目的图形方式反映变量间关系的变化形态 , 以便决定用何种数学表达方式来模拟变量之间的关系 。 散点图不仅可传递变量间关系类型的信息 , 也能反映变量间关系的明确程度 。
plt.subplots_adjust(wspace =0.2, hspace =1)plt.subplot(321)plt.scatter(data1['现价'],data1['月销量'])plt.xlabel('现价')plt.ylabel('月销量')plt.subplot(322)plt.scatter(data1['优惠力度'],data1['月销量'])plt.xlabel('优惠力度')plt.ylabel('月销量')plt.subplot(323)plt.scatter(data1['累计评价'],data1['月销量'])plt.xlabel('累计评价')plt.ylabel('月销量')plt.subplot(324)plt.scatter(data1['收藏'],data1['月销量'])plt.xlabel('收藏')plt.ylabel('月销量')plt.subplot(325)plt.scatter(data1['天猫积分'],data1['月销量'])plt.xlabel('天猫积分')plt.ylabel('月销量')plt.subplot(326)plt.scatter(data1['店铺描述'],data1['月销量'])plt.xlabel('店铺描述')plt.ylabel('月销量')plt.savefig('scatter1.png',dpi=200)plt.show()


推荐阅读