『可视化技术』Pandas数据可视化的9个要点「附案例」


『可视化技术』Pandas数据可视化的9个要点「附案例」
本文插图
文末领取【数据可视化图表选择指南】
数据可视化可以让我们很直观的发现数据中隐藏的规律 , 察觉到变量之间的互动关系 , 可以帮助我们更好的给他人解释现象 , 做到一图胜千文的说明效果 。
常见的数据可视化库有:

  • matplotlib 是最常见的2维库 , 可以算作可视化的必备技能库 , 由于matplotlib是比较底层的库 , api很多 , 代码学起来不太容易 。
  • seaborn 是建构于matplotlib基础上 , 能满足绝大多数可视化需求 。 更特殊的需求还是需要学习matplotlib 。
  • pyecharts 上面的两个库都是静态的可视化库 , 而pyecharts有很好的web兼容性 , 可以做到可视化的动态效果 。
但是在数据科学中 , 几乎都离不开pandas数据分析库 , 而pandas可以做:
  • 数据采集 如何批量采集网页表格数据?
  • 数据读取 pd.read_csv/pd.read_excel
  • 数据清洗(预处理) 理解pandas中的apply和map的作用和异同
  • 可视化 , 兼容matplotlib语法 (今天重点)
在本文我们可以学到用pandas做:
  • 导入数据
  • 绘制最简单的图plot
  • 多个y的绘制图
  • 折线图、条形图、饼形图和散点图绘制
  • 统计信息绘图
  • 箱型图
  • 轴坐标刻度
  • plot更多精细化参数
  • 可视化结果输出保存
准备工作
如果你之前没有学过pandas和matpltolib,我们先安装好这几个库
!pip3 install numpy!pip3 install pandas!pip3 install matplotlib 已经安装好 , 现在我们导入这几个要用到的库 。 使用的是伦敦天气数据 , 一开始我们只有12个月的小数据作为例子
#jupyter notebook中需要加这行代码%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npimport pandas as pd#读取天气数据df = pd.read_csv('data/london2018.csv')df
『可视化技术』Pandas数据可视化的9个要点「附案例」
本文插图
plot最简单的图
选择Month作为横坐标 , Tmax作为纵坐标 , 绘图 。
大家注意下面两种写法
#写法1df.plot(x='Month', y='Tmax')plt.show
『可视化技术』Pandas数据可视化的9个要点「附案例」
本文插图
  • 横坐标轴参数x传入的是df中的列名Month
  • 纵坐标轴参数y传入的是df中的列名Tmax
折线图
上面的图就是折线图 , 折线图语法有三种
  • df.plot(x='Month', y='Tmax')
  • df.plot(x='Month', y='Tmax', kind='line')
  • df.plot.line(x='Month', y='Tmax')
df.plot.line(x='Month', y='Tmax')plt.show
『可视化技术』Pandas数据可视化的9个要点「附案例」
本文插图
#grid绘制格线df.plot(x='Month', y='Tmax', kind='line', grid=True)plt.show


推荐阅读