目录
目录readme.md

地铁乘客流量预测

  • 初赛 30/2319
  • 复赛 49/2319

    1 赛题要求

参赛者可通过分析地铁站的历史刷卡数据,预测站点未来的客流量变化,帮助实现更合理的出行路线选择,规避交通堵塞,提前部署站点安保措施等,最终实现用大数据和人工智能等技术助力未来城市安全出行。

2 赛题解释

大赛开放了20190101至20190125共25天地铁刷卡数据记录,共涉及3条线路81个地铁站约7000万条数据作为训练数据(Metro_train.zip),供选手搭建地铁站点乘客流量预测模型,预测2019.1.29(初赛)2019.1.27(淘汰赛)各地铁站、每十分钟进站出站流量

3 eda

  • 日期为X,流量为Y,画出每个地铁站每10分钟出入情况
  • 画出节假日/非节假日情况
  • 粒度变为小时,画出每小时出入情况

4 模型1:fbprophet

剔除周末特征,每10分钟的数据构造一个模型,每个模型预测一个值

5 模型2:lightgbm

特征工程1

  • 近五天同一时间入站/出站人数
  • 近三天均值
  • 近12天,23天差值、比值
  • 近3天/5天,每天值占比
  • 近3天/5天 和/均值/最大值/最小值/中位数
  • 以周为单位,所有星期n数据的最大值、最小值、均值、方差
  • 外部数据:是否在运营时间内、几号线

特征工程2

  • 强相关信息
    10分钟固定特征:
      每天对应当前时段
      每天对应上一时段
      每天对应下一时段
      每天对应上两时段
      每天对应下两时段
    小时统计特征(平滑特征):
      每天对应当前时段
      每天对应上一时段
      每天对应下一时段
      每天对应上两时段
      每天对应下两时段
    滑窗统计特征(10分钟&小时):
      前N天对应当前时段
      前N天对应上一时段
      前N天对应下一时段
      前N天对应上两时段
      前N天对应下两时段
    相邻站点统计特征(相邻两个站点):
      对天对应当前时段(10分钟)
      对天对应当前时段(小时)
  • 趋势特征 ```python 包括每周对应时刻小时历史、每周对应时刻10分钟历史 10分钟diff统计特征: A(n+1)-A(n) 每天对应当前时段 每天对应上一时段 每天对应下一时段 10分钟ratio统计特征: A(n+1)/A(n) 每天对应当前时段 每天对应上一时段 每天对应下一时段 其他趋势特征: 线性回归系数 线性回归残差
#### 特征工程3
将地铁线路看作一句话,每一站是一个单词,采用word2vec编码
前一天60min/120min历史滑窗
相连的其他地铁站'min', 'max', 'mean', 'std', 'skew'

#### 模型训练
* 1~25号数据训练,28号验证,获得最佳迭代次数
* 使用同样的参数及最佳迭代次数,1~28号数据训练,预测29号

### 6 规则
* 求取前一周周1~周5的分钟均值
* 求取前一周周1~周5的小时均值
* 分钟/小时得到分钟占小时的比例
* 28日的小时均值\*比例=29号预测值
* 淘汰赛使用 <周六值\*周六日比例\*分钟小时比例=周日值>

模型和规则相互融合得到最终结果


关于
78.0 KB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号