中国统计网Python实战案例:我们对共享单车的需求有多大?( 三 )
本文插图
- 第一个图是调整之前的, 就中位数来说, 春季气温最低, 秋季气温最高
- 第二个图是调整之后的, 就中位数来说, 冬季气温最低, 夏季气温最高
本文插图
显然第二张的图的结果较符合常理, 故删除另外那一列 。
df.drop('season', axis=1, inplace=True) df.shape (10886,16)8. 其他变量和总租赁数量的关系这里我直接使用利用seaborn的pairplot绘制剩余的温度, 体感温度, 相对湿度, 风速这四个连续变量与未注册用户和注册用户的关系在一张图上 。
sns.pairplot(df[['temp','atemp','humidity','windspeed','casual','registered','count']])为了方便纵览全局, 我将图片尺寸缩小, 如下图所示. 纵轴从上往下依次是温度, 体感温度, 相对湿度, 风速, 未注册用户, 注册用户, 所有用户, 横轴从左往右是同样的顺序 。本文插图
从图上可以看出, 温度和体感温度分别与未注册用户, 注册用户,所有用户均有一定程度的正相关, 而相对湿度和风速与之呈现一定程度的负相关 。 另外, 其他变量之间也有不同程度的相关关系 。
另外, 第四列(风速)在散点图中间有明显的间隙. 需要揪出这一块来看看 。
df['windspeed'] Name:windspeed,Length: 10886,dtype:float64 风速为0, 这明显不合理, 把其当成缺失值来处理 。 我这里选择的是向后填充 。df.loc[df.windspeed ==0,'windspeed'] = np.nan df.fillna(method='bfill', inplace=True) df.windspeed.isnull.sum09. 相关矩阵由于多个变量不满足正态分布, 对其进行对数变换 。
本文插图
本文插图
经过对数变换之后, 注册用户和所有用户的租赁数量和正态还是相差较大, 故在计算相关系数时选择spearman相关系数 。
本文插图
均有不同程度的相关程度, 其中, temp和atemp高度相关, count和registered高度相关, 数值均达到0.99 。
本文插图
岭回归和Lasso回归是加了正则化项的线性回归, 下面将分别构造三个模型:岭回归、Lasso回归和线性回归 。
1. 岭回归(1)划分数据集
本文插图
(2)模型训练
fromsklearn.linear_modelimportRidge #这里的alpha指的是正则化项参数, 初始先设置为1. rd = Ridge(alpha=1) rd.fit(X_train, y_train) print(rd.coef_) print(rd.intercept_) [0.00770067-0.000343010.00391960.008182430.03635549-0.01558927 0.090807880.09714060.027918120.06114358-0.00099811] 2.6840271343740754 通过前面我们知道, 正则化项参数对结果的影响较大, 下一步我们就通过岭迹图来选择正则化参数 。推荐阅读
- 楠竹一|墙头草国家曾被苏联灭国,如今让中国损失478,比土耳其还厚脸皮
- 【】中国十大忙碌城市出炉:前三不是北上广!来看看有你家吗?
- 枫叶说体育|专利如今过期了,结果怎样了?,中国小伙发明“U盘”获利几十亿
- 基金|中芯国际发行价为27.52元 中国信科和国家集成电路基金参与
- 阿拉图图科技说三星新机口碑虽好,但中国市场销量翻车,用户几乎跑光!
- 驱动中国无缘屏下摄像头!华为Mate 40系列爆料:双曲面设计
- 驱动中国腾讯内部人士爆料:与“老干妈”合作多个环节有漏洞 却无人察觉
- 驱动中国首发AMD锐龙9处理器 华硕天选游戏本元气蓝开箱图赏
- 文汇网AI力量大集结!中国团队首次在国际顶级学术期刊发布中国AI全景论文
- 中国新闻网|日本东京都知事选举结束 日媒:小池百合子确定胜选
