今天读的是IntelliLight:一种用于智能交通灯控制的强化学习方法,其核心创新点在于解决了传统方法在真实动态交通环境下的不足,并通过模型结构优化和训练机制改进提升性能。
讲解一下我认为的创新点:
传统方法的缺陷:固定时序控制(Fixed-time)和基于规则的方法(如SOTL)无法适应动态交通流;已有强化学习方法大多在仿真环境中测试,未考虑真实交通的复杂性和样本不平衡问题。
- 关键挑战:
- 环境表征:如何有效融合交通状态(车流位置、等待时间等)和信号灯相位(Phase)。
- 决策偏差:相同车流条件下,不同相位需不同决策,但传统DQN将相位作为普通特征,导致决策混淆。
- 样本不平衡:真实交通中不同相位-动作组合出现频率差异大,影响训练稳定性。
为了解决相位决策混淆问题,他这里有的一个创新方法:
(1) Phase Gate(相位门控):
主要就是面对不同的相位(如东西向绿灯 P=0
或南北向绿灯 P=1
)激活不同的全连接层分支。
他的输入特征为:融合图像特征(CNN提取车流位置) + 传统特征(排队长度 L
、等待时间 W
、车辆数 V
、相位 P
)。
效果就是相同车流下,不同相位能够触发独立决策逻辑,避免错误动作(如该保持相位时误切换)。
还有就是面对真实交通中样本不平衡问题(如某些相位-动作组合样本稀少)毕竟强化学习只是在仿真里面训练,面对真实环境还有差距。
他提出的创新方法为:
(2)Memory Palace(记忆宫殿):
他为为每个相位-动作组合(如 (P=0, a=保持)
、(P=1, a=切换)
)建立独立记忆池。这样就能够保证训练时从各记忆池均匀采样,确保低频组合不被忽略。
这样能提升模型对罕见交通场景的适应能力,减少决策偏差。
面对仿真和真实环境的差距,他使用真实数据来训练。
(3) 真实数据驱动的训练与评估
使用济南市 1,704个摄像头 的31天真实数据(4.05亿条车辆记录),覆盖动态交通流(高峰/非高峰、工作日/周末)。
并且他的奖励函数可以参考下:
奖励 = w1*总排队长度 + w2*总等待时间 + w3*信号切换惩罚 + w4*总延误 + w5*通过车辆数 + w6*总通行时间
还有就是他的状态表示:
使用图像特征和传统特征:
图像特征:车流位置矩阵 M
→ CNN提取空间信息。
传统特征:各车道排队长度 L_i
、车辆数 V_i
、平均等待时间 W_i
、当前相位 P_c
、下一相位 P_n
。
动作空间为二值决策(a=0
保持当前相位,a=1
切换相位)
训练框架:分为离线阶段:用固定时序策略收集初始样本。和在线阶段:ε-贪婪策略交互更新(ε=0.05
),定期从记忆宫殿采样更新DQN。
总结:
我认为以后比赛最值得尝试的就是他的相位门控机制,能够解决状态-动作混淆问题。
还有记忆宫殿,分桶存储样本解决不平衡问题,能够提升鲁棒性。