共享单车分析
记录并分析城市共享单车的使用数据 #生活乐趣# #生活分享# #城市生活观察# #都市生活新鲜事#
一、项目背景
近几年互联网行业蓬勃发展,这就孕育出了共享经济——互联网行业和传统行业相结合的产物。在我们的生活中不知不觉就出现了很多的共享产品,共享充电宝,共享电动车,共享单车……本文旨在分析共享单车,这是一种企业在校园、地铁站点、公交站点、居民区、商业区、公共服务区等所提供的一种分时租赁模式,一种新型绿色环保共享经济。通过对共享单车租赁量数据进行分类统计,反应不同时间,气候下人们租赁量的变化,并以此向共享单车运营团队提供建议,通过调整不同时间段的共享单车数量,以获得更高的利用率,同时采取拉新措施,使更多的人参与到共享经济中,倡导绿色出行,打造城市绿色交通体系、提升城市出行效率。
二、项目数据结构和分析维度的导图。
三、数据处理
3.1导入数据
3.2缺失值处理
用命令http://train.info()未发现有数据缺失的情况。
3.3异常值处理
train.dascribe()
可以发现最终需要预测的租赁量(count)的标准差很大。为了不造成模型的过拟合,需要处理一下。处理方法为将3个标准差以外的数据排除。
我们可以看到:对数变换后的数据,图形的倾斜没有那么严重,差异也变小了。
3.4数据清洗
四、数据分析
4.1整体分析
2012年相比2011年,总租赁量和注册用户租赁量有了显著的提升,说明随着时间的增长,用户对共享单车的接受度提高,需求量扩大。
4.2相关因素分析
4.2.1时间分析
从年份来看,2012年的租赁量相比2011年有了很大的提升,说明随着时间变化,共享单车的使用数量提高。
从时间来看,注册用户的租赁量在二十四小时中存在两个高峰和一个小高峰,正是上班和下班和中午吃饭的时间。而未注册用户的租赁量集中在12点之后的三小时内,说明未注册用户对通勤的需求较低。
从季节来看,春天的租赁量要明显低于其他季节,而秋天的租赁量是四个季节中最高的。租赁量的变化符合气温变化,秋天温度比较适合骑单车。
从月份来看,6月~9月是租赁旺季,12月~2月是租赁淡季,与季节的租赁量趋势相对一致。
由图可见,工作日与非工作日的租赁量有着明显反差,这种规律与24小时租赁量变化有着相同的变化趋势,说明共享单车的注册会员大部分是需要在工作日利用共享单车进行通勤,而未注册会员在工作日的出行需求较低,在非工作日则贡献了大量的租赁量。
而节假日也与此相同,非节假日的大部分为工作日,导致数据上的两个高峰和十二点的小高峰。节假日的租赁量由早上八点缓慢提升,再晚上六点之后直线下降,可能是节假日出行游玩造成租赁量的提升,在晚上回家之后造成租赁量急剧下降。
4.2.2天气维度
不管是注册用户还是非注册用用,其在天气上的骑行需求一致,都选择比较好的天气出行。
4.2.3其他因素方面
从图中可以看出,在实际温度在25-28度时,体感温度在31-34度时租赁共享单车的人比较多。出行时对湿度的要求不高,但对风速的要求很高,高于20是租赁概率直线下跌。
数据分析总结
1、共享单车由注册用户与非注册用户构成,而主要群体以注册用户为主。
2、共享单车的用户总数主要受摄氏度、体感温度、湿度、时刻影响比较明显。
3、根据数据分析提出几个建议
(1)用户总数随时间在持续上升,可以增加共享单车的投放数量以满足业务需求;
(2)用户总数在夏季、秋季、冬季较多,而在春季较少,可以选择在春季大批量回收车辆进行维修保养;
(3)用户总数在工作日的上下班时段达到高峰期,因此在此时间段前进行车辆调度集中投放在地铁口、公交站台、小区出口等附近以供人们方便使用,提高用户量;而在假期,则在白天时刻集中投放在各小区出口、地铁口、景点等附近以供人们方便使用,用以提供用户量;
(4)用户总数在温度达到20-25摄氏度之间达到高峰期,因为温度较舒服,人们喜欢骑单车出行,因此在这种天气时增大投放量。
4.3各因素相关性分析
由图中的相关系数可以看出,count和registered、casual高度正相关。为避免多重共线性造成的过拟合,在选取特征值时要把这两个特征排去。由于实际温度和体感温度的相关系数有0.98,且二者表达的都是气候是否适宜因此在选取特征值时将atemp舍弃。Season和month的相关系数为0.97,舍去season。剩下的特征都对count有一定的影响,将其保留。
由于测试集的日期只到19号,在构造模型时会有干扰,所以舍弃特征day。
5、预测性分析
5.1选取特征值
通过分析后我将holiday,workingday,weather,temp,humidity,windspeed,month,year,hour
共9个作为模型预测的特征值。其中的year、month、hour和weather为离散量需要我们利用one-hot编码将变量转换,为机器学习算法易于利用的一种形式。
5.2多余特征值舍弃
5.3数据处理
5.4选择模型,训练模型
可以看到RandomForestRegressor的误差是最小的。
5.5预测测试集数据
网址:共享单车分析 https://www.yuejiaxmz.com/news/view/1096328
相关内容
基于轨迹分析和深度学习模型的共享单车动态调度技术研究共享单车如何影响城市
共享健身房商业分析
用分享收获共赢,房车生活家推出“共享房车”业务
共享单车=共享细菌?!女孩骑车2小时得了妇科病...
共享单车使用指南:便捷出行与安全骑行技巧分享
「共享单车整理招聘信息」
GDO100 vol.70 | 共享单车再利用
废旧自行车变身共享单车
[社会聚焦,共享便利] “移动互联网+手机支付=自行车租赁”催生了共享单车这一崭新的行业,共享单车正成为经济生活的一抹亮色,小橙车、小黄车、小蓝车...彩虹般