Python分析1万条数据,告诉你奔驰宝马奥迪哪个更垃圾?
最近我一在杭州做外贸生意的老表让我给他推荐一辆车 , 自己的宝来开了5年多 , 感觉不香了 , 这次要我给他从BBA中选一个 , 落地35万以内落地 。 我想这做生意稳重一点 , 35万以内差不多就是奔驰C , 宝马3和奥迪A4中选了 。 至于选哪一个就很头疼了 。
我们知道每辆车都有它的特点和受众群体 , 特别是对于这种有上百年品牌积淀的BBA 。 奔驰的高逼格 , 宝马的驾驶感 , 奥迪的科技感等 , 但是这些特点不一定是你买它的理由 。
每辆车肯定都有缺点 , 如果这些缺点你无法忍受 , 那一定是你不买的理由 。 与其打破脑袋做选择题 , 不如换个思维方式 , 用排除法 , 做“不选”题 。
按照这个思路 , 我就想着怎么样把这三个车的问题搜集出来 , 对比看看哪个更加无法接受 。 最后在做出选择 。 思路有了 , 问题就有了解决方案了:
- 搜集各个车型的问题
- 搜集完后做数据清洗聚合
- 问题点生成词云对比 , 更具有视觉效果
- 按车型搜索投诉信息
本文插图
- 搜索后 , 得到详细的投诉信息列表 , 很全很强大!
本文插图
我们只要把这些信息写个爬虫爬下来就可以了 。 这个简单 。 按照我们之前写过的爬虫 , 5分钟 , 总共不超过20行代码 , 就把这些数据拿下了 。 没办法 , python爬虫就是这么强大!特别是对于这种第三方机构的网页 , 基本上没有什么反爬虫措施 。 爬取后的数据如下,大概10000条:
本文插图
每一行为一个投诉 , 每个投诉有车型车款投诉信息和投诉日期等字段 , 完全够用了 。
原材料有了 , 接下来就开始做菜了 。 按照需求:“分析每个车型的主要缺点 , 看看哪个更加无法接受”来搭建数据分析的指标和方法 。
我的思路:第一 , 总体观:先看看哪个车型故障比较多 第二 , 细化到每个车型在看看每个车型的主要问题
总体分析简单 , 直接用pandas聚合 , 看看每个车型的投诉总数和占比:
本文插图
可视化:
本文插图
Oh, yeah!做之前我还对奥迪A4抱有一丝希望 , 没想到这丫竟然独占60%的投诉量!比另外两个加在一起还多 。 我在想这个是不是和销量相关呢?可能是因为销量多 , 所以投诉多?那好 , 把销量数据拿出来 。
这里有一家网站 , 车主之家 , 可以按照车型查找到每个月的销量:
本文插图
同样的 , 我们用爬虫爬取了2009-2019共11年三个品牌的销量数据:
本文插图
OK , 把这个数据和投诉数据放到一起:
本文插图
销量可视化:
推荐阅读
- 长安汽车|长安CS55的销量下滑严重吗?它的缺点很多吗?看看老司机的分析吧
- 辽沈美食|地摊启动城市夜经济,2020年夜市美食流行趋势分析
- 起亚|行车千万条,安全第一条,起亚K3更安全
- 小番健康|乙肝恩替卡韦48周试验和国产进口药物分析
- 本田|鼓足勇气入手本田冠道,16391公里后,车主仔细分析了缺点和小毛病
- 狮子座|狮子6月运势吉凶超准分析!
- 运势|射手座6月运势吉凶超准分析!
- 车砖家说车|关于非法网约车等非法营运知识讲解分析
- 吴晨光|中大管院云讲堂(四) | 吴晨光教授:旅游需求分析及预测前沿
- 水逆|6月星象分析|水逆+日月食+海逆,谁才是真正的C位?
