中国统计网Python实战案例:我们对共享单车的需求有多大?
- 点击上方“中国统计网”订阅我吧!-
本文插图
文末领取【共享单车数据集+全文代码 】
现如今 , 共享单车在生活中可谓处处可见 , 那么它的租赁需求是多少呢?今天我们就基于美国华盛顿共享单车的租赁数据 , 利用Python和可视化对租赁需求进行预测 。
该数据集是美国华盛顿共享单车租赁数据, 其中有训练集和测试集, 在训练集中包含10886个样本以及12个字段, 通过训练集上自行车租赁数据对美国华盛顿共享单车租赁需求进行预测 。 数据集是笔者在外网爬取的 , 为了方便大家使用 , 可以在文末添加职场老师免费领取 。
数据探索分析1. 读取数据
本文插图
通过以上可以得知数据维度10886行X12列, 除了第一列其它均显示为数值, 具体的格式还要进一步查看, 对于各列的解释也放入下一环节 。
2. 查看数据整体信息
df.info <class'pandas.core.frame.DataFrame'> RangeIndex:10886 entries, 0 to 10885 memoryusage: 1020.6+ KB 除了datetime为字符串型, 其他均为数值型, 且无缺失值 。
3. 描述性统计
df.describe温度, 体表温度, 相对湿度, 风速均近似对称分布, 而非注册用户, 注册用户,以及总数均右偏分布 。
本文插图
4. 偏态, 峰态
name = df.columns[i] print('{0}偏态系数为 {1}, 峰态系数为 {2}'.format(name, df[name].skew, df[name].kurt)) temp偏态系数为 0.003690844422472008, 峰态系数为 -0.9145302637630794 atemp偏态系数为 -0.10255951346908665, 峰态系数为 -0.8500756471754651 humidity偏态系数为 -0.08633518364548581, 峰态系数为 -0.7598175375208864 windspeed偏态系数为 0.5887665265853944, 峰态系数为 0.6301328693364932 casual偏态系数为 2.4957483979812567, 峰态系数为 7.551629305632764 registered偏态系数为 1.5248045868182296, 峰态系数为 2.6260809999210672 count偏态系数为 1.2420662117180776, 峰态系数为 1.3000929518398334
- temp, atemp, humidity低度偏态
- windspeed中度偏态
- casual, registered, count高度偏态
- temp, atemp, humidity为平峰分布
- windspeed,casual, registered, count为尖峰分布
1. 检查重复值
print('未去重: ', df.shape) print('去重: ', df.drop_duplicates.shape) 未去重: (10886, 12) 去重: (10886, 12) 没有重复项, 看看异常值 。2. 异常值
通过箱线图查看异常值
本文插图
租赁数量会受小时的影响, 比如说上班高峰期等, 故在这里先不处理异常值 。
本文插图
3. 数据加工
转换"时间和日期"的格式, 并提取出小时, 日, 月, 年 。
推荐阅读
- 楠竹一|墙头草国家曾被苏联灭国,如今让中国损失478,比土耳其还厚脸皮
- 【】中国十大忙碌城市出炉:前三不是北上广!来看看有你家吗?
- 枫叶说体育|专利如今过期了,结果怎样了?,中国小伙发明“U盘”获利几十亿
- 基金|中芯国际发行价为27.52元 中国信科和国家集成电路基金参与
- 阿拉图图科技说三星新机口碑虽好,但中国市场销量翻车,用户几乎跑光!
- 驱动中国无缘屏下摄像头!华为Mate 40系列爆料:双曲面设计
- 驱动中国腾讯内部人士爆料:与“老干妈”合作多个环节有漏洞 却无人察觉
- 驱动中国首发AMD锐龙9处理器 华硕天选游戏本元气蓝开箱图赏
- 文汇网AI力量大集结!中国团队首次在国际顶级学术期刊发布中国AI全景论文
- 中国新闻网|日本东京都知事选举结束 日媒:小池百合子确定胜选
