Python分析1万条数据,告诉你奔驰宝马奥迪哪个更垃圾?


最近我一在杭州做外贸生意的老表让我给他推荐一辆车 , 自己的宝来开了5年多 , 感觉不香了 , 这次要我给他从BBA中选一个 , 落地35万以内落地 。 我想这做生意稳重一点 , 35万以内差不多就是奔驰C , 宝马3和奥迪A4中选了 。 至于选哪一个就很头疼了 。
我们知道每辆车都有它的特点和受众群体 , 特别是对于这种有上百年品牌积淀的BBA 。 奔驰的高逼格 , 宝马的驾驶感 , 奥迪的科技感等 , 但是这些特点不一定是你买它的理由 。
每辆车肯定都有缺点 , 如果这些缺点你无法忍受 , 那一定是你不买的理由 。 与其打破脑袋做选择题 , 不如换个思维方式 , 用排除法 , 做“不选”题 。
按照这个思路 , 我就想着怎么样把这三个车的问题搜集出来 , 对比看看哪个更加无法接受 。 最后在做出选择 。 思路有了 , 问题就有了解决方案了:

  • 搜集各个车型的问题
  • 搜集完后做数据清洗聚合
  • 问题点生成词云对比 , 更具有视觉效果
好了 , 说干就干 。 第一步 , 问题搜集 。 要搜集问题 , 自然要找投诉网站 。 有个12365车质网就是让用户上报投诉信息的 , 我们也可以按照车型搜索投诉信息 , 如图:
  • 按车型搜索投诉信息

Python分析1万条数据,告诉你奔驰宝马奥迪哪个更垃圾?
本文插图

  • 搜索后 , 得到详细的投诉信息列表 , 很全很强大!
Python分析1万条数据,告诉你奔驰宝马奥迪哪个更垃圾?
本文插图
我们只要把这些信息写个爬虫爬下来就可以了 。 这个简单 。 按照我们之前写过的爬虫 , 5分钟 , 总共不超过20行代码 , 就把这些数据拿下了 。 没办法 , python爬虫就是这么强大!特别是对于这种第三方机构的网页 , 基本上没有什么反爬虫措施 。 爬取后的数据如下,大概10000条:
Python分析1万条数据,告诉你奔驰宝马奥迪哪个更垃圾?
本文插图

每一行为一个投诉 , 每个投诉有车型车款投诉信息和投诉日期等字段 , 完全够用了 。
原材料有了 , 接下来就开始做菜了 。 按照需求:“分析每个车型的主要缺点 , 看看哪个更加无法接受”来搭建数据分析的指标和方法 。
我的思路:第一 , 总体观:先看看哪个车型故障比较多 第二 , 细化到每个车型在看看每个车型的主要问题
总体分析简单 , 直接用pandas聚合 , 看看每个车型的投诉总数和占比:
Python分析1万条数据,告诉你奔驰宝马奥迪哪个更垃圾?
本文插图

可视化:
Python分析1万条数据,告诉你奔驰宝马奥迪哪个更垃圾?
本文插图

Oh, yeah!做之前我还对奥迪A4抱有一丝希望 , 没想到这丫竟然独占60%的投诉量!比另外两个加在一起还多 。 我在想这个是不是和销量相关呢?可能是因为销量多 , 所以投诉多?那好 , 把销量数据拿出来 。
这里有一家网站 , 车主之家 , 可以按照车型查找到每个月的销量:
Python分析1万条数据,告诉你奔驰宝马奥迪哪个更垃圾?
本文插图

同样的 , 我们用爬虫爬取了2009-2019共11年三个品牌的销量数据:
Python分析1万条数据,告诉你奔驰宝马奥迪哪个更垃圾?
本文插图

OK , 把这个数据和投诉数据放到一起:
Python分析1万条数据,告诉你奔驰宝马奥迪哪个更垃圾?
本文插图

销量可视化:
Python分析1万条数据,告诉你奔驰宝马奥迪哪个更垃圾?


推荐阅读