基于SAC算法的多交叉口交通信号控制研究
针对深度Q网络(deep Q-learning network,DQN)算法在解决多交叉口交通信号配时方案由于外部环境变化和内部参数波动导致效果不佳的问题,提出了基于柔性"行动器-评判器"(soft actor-critic,SAC)的交叉口交通信号控制方法,并设计了相应的系统采样策略和回报函数.与原采样策略相比,新采样策略将相邻智能体的策略信息加入到系统状态中,使当前智能体能够得到更多的交叉口交通分布和合作策略信息.与原回报函数相比,新回报函数中引入空间折扣因子,缩小了相邻智能体的观察和回报值,使当前智能体更加关注和改善当前交通状况.随后在此基础上分别应用 DQN 和 SAC 算法设计交通信号控制方法.Webster 配时法是利用相位流量数据开发的一种基于周期的固定相位长度交通信号方法,与DQN和SAC算法相比,其优化目标是降低交叉口延迟时间,不考虑交叉口排队长度.在城市交通模拟软件(simulation of urban mobility,SUMO)中构建一个时变交通流交通网络,并在其中分别对基于DQN、SAC和Webster 配时法的信号配时控制方法进行仿真测试.仿真结果表明:基于 SAC算法的交通信号控制方法与基于 DQN 算法和 Webster 配时法的交通信号控制方法相比,能够显著减少交叉口排队长度和平均延迟时间,具体来说,车辆平均排队长度分别减少了 17.8%和 28.2%,平均延迟分别减少了 26.8%和 36.3%,说明所提出的方法具有更好的控制效果.
智能交通、交通信号控制、信号交叉口、深度Q网络、柔性"行动器-评判器"
57
U491.2(交通工程与公路运输技术管理)
2024-01-03(万方平台首次上网日期,不代表论文的发表时间)
共7页
105-111