新工科 课程 某单车站点使用情况分析(Python版)
课程封面
某单车站点使用情况分析(Python版)
大数据
随着工业现代化的快速发展普及,上世纪七八十年代的自行车出行方式逐渐被汽车所替代。当前移动互联网技术的快速发展,让自行车出行重新成为民 众短距离出行的首选。在移动互联网等新技术的驱动下,城市慢行交通领域的创新逐渐显现出来。在出行领域,目前打车类应用软件的发展逐渐趋于稳定,但民众“最后一公里” 出行的问题,在此之前始终没有得到解决。共享单车的出现,让民众多了一种绿色的出行方式可以选择。共享单车引导政府部门重视慢行交通系统的建设,倡导民众更多选择绿色出行的方式,这些方面能在一定程度上缓解城市交通拥堵、改善城市环境。
    本文选取美国Citibike项目提供的数据进行分析。Citibike是美国最大的共享计划,在曼哈顿,布鲁克林,皇后区和泽西市有大约1万辆单车和600多个站点。与其他共享单车项目一样,花旗单车同时面临着交通网络重新分配资源这一重大挑战。比如:一些站点在某些时间常常处于空置状态,而另一些则总是满的。这迫使顾客们往返于不同站点寻找空置的停车位或者是可利用的自行车。与其他共享单车项目一样,花旗单车同时面临着交通网络重新分配资源这一重大挑战。为了顾客能更好地安排他们的行程,以及Citibike能提前对车辆进行调度,我们的算法研究致力于探究不同环境下站点的使用情况,以及对站点未来五分钟停车位“满”还是“空”的情况进行预测。
实验列表
  • step1
    实验1 实验数据理解
    理解实验数据
    查看详情
  • step2
    实验2 数据预处理
          使用python进行数据的处理、解析,提取需要的内容。比如数据的导入,数据变量的处理等
    查看详情
  • step3
    实验3 单车使用情况描述性统计分析
        使用python作出 用户骑行时间分布图,以及工作日与周末每小时用户骑行距离分布图
    查看详情
  • step4
    实验4 SVD+聚类模型进行站点分类
         使用学习算法对站点进行分类,主要包括SVD和Cluster。 
         使用Truncated SVD选取聚类依据的关键因素,随后使用K-Means聚类算法进行聚类,并进行站点画像。  
    查看详情
  • step5
    实验5 使用多个模型对站点使用情况预测
         在进行模型建立之间,需要做如下准备工作:
    1.相关数据匹配、变量选择、变量创建: station_id,week,hour,minute,lastest_num_bike,lastest_capacity, bike_arrivals, bike_arrivals_10(过去十分钟到达的车辆数) , bike_departure, bike_departure_10, hist_arr(所有站点相应时段车辆到达的平均数),hist_dep(所有站点相应时段车辆到达的平均数),isfull, isempty,precip, temp, Giantarr, Giantdep。
    2.用交叉验证法划分训练集和测试集,选用数据集的2/3作为训练集,1/3作为测试集。
    3.选择recall指标对模型进行评价: Recall=TP/(TP+FN) ,因为实际中我们更加关注模型的recall (specificity)即如果预测结果是不满的,而实际是满(FN),对用户造成的困扰要大于实际上满而预测为不满(FP)的情况,另由于数据存在一定的不平衡性,因此我们选择recall来对模型进行评价。 
         站点是否满载的预测工作:我们最终选择了随机森林模型,贝叶斯模型,和线性回归模型,分别对不同的响应变量进行建模,并比较不同模型之间的结果差异。  
    查看详情

如果您想对我们的产品和服务更进一步了解
请用下面的方式和我们联系

电子邮箱:business@yundaxue.org(会在1个工作日之内和您接洽)

联系电话:400-828-1210(周一至周五 9:00-18:00 )