modify
参赛者可通过分析地铁站的历史刷卡数据,预测站点未来的客流量变化,帮助实现更合理的出行路线选择,规避交通堵塞,提前部署站点安保措施等,最终实现用大数据和人工智能等技术助力未来城市安全出行。
大赛开放了20190101至20190125共25天地铁刷卡数据记录,共涉及3条线路81个地铁站约7000万条数据作为训练数据(Metro_train.zip),供选手搭建地铁站点乘客流量预测模型,预测2019.1.29(初赛)2019.1.27(淘汰赛)各地铁站、每十分钟进站出站流量
剔除周末特征,每10分钟的数据构造一个模型,每个模型预测一个值
10分钟固定特征: 每天对应当前时段 每天对应上一时段 每天对应下一时段 每天对应上两时段 每天对应下两时段 小时统计特征(平滑特征): 每天对应当前时段 每天对应上一时段 每天对应下一时段 每天对应上两时段 每天对应下两时段 滑窗统计特征(10分钟&小时): 前N天对应当前时段 前N天对应上一时段 前N天对应下一时段 前N天对应上两时段 前N天对应下两时段 相邻站点统计特征(相邻两个站点): 对天对应当前时段(10分钟) 对天对应当前时段(小时)
#### 特征工程3 将地铁线路看作一句话,每一站是一个单词,采用word2vec编码 前一天60min/120min历史滑窗 相连的其他地铁站'min', 'max', 'mean', 'std', 'skew' #### 模型训练 * 1~25号数据训练,28号验证,获得最佳迭代次数 * 使用同样的参数及最佳迭代次数,1~28号数据训练,预测29号 ### 6 规则 * 求取前一周周1~周5的分钟均值 * 求取前一周周1~周5的小时均值 * 分钟/小时得到分钟占小时的比例 * 28日的小时均值\*比例=29号预测值 * 淘汰赛使用 <周六值\*周六日比例\*分钟小时比例=周日值> 模型和规则相互融合得到最终结果
©Copyright 2023 CCF 开源发展委员会 Powered by Trustie& IntelliDE 京ICP备13000930号
地铁乘客流量预测
1 赛题要求
参赛者可通过分析地铁站的历史刷卡数据,预测站点未来的客流量变化,帮助实现更合理的出行路线选择,规避交通堵塞,提前部署站点安保措施等,最终实现用大数据和人工智能等技术助力未来城市安全出行。
2 赛题解释
大赛开放了20190101至20190125共25天地铁刷卡数据记录,共涉及3条线路81个地铁站约7000万条数据作为训练数据(Metro_train.zip),供选手搭建地铁站点乘客流量预测模型,预测2019.1.29(初赛)2019.1.27(淘汰赛)各地铁站、每十分钟进站出站流量
3 eda
4 模型1:fbprophet
剔除周末特征,每10分钟的数据构造一个模型,每个模型预测一个值
5 模型2:lightgbm
特征工程1
2天,23天差值、比值特征工程2