10.3969/j.issn.1002-0268.2015.01.019
MDP下基于特征表示强化学习的自适应交通信号控制
将传统强化学习算法应用到交叉口自适应交通信号控制中,存在着维数灾难的问题,即状态和动作空间大小随着交叉口的增加而呈指数增长.因此,将交叉口自适应交通信号控制问题看成马尔科夫决策过程(MDP)问题,通过有效地利用基于特征的状态表示和线性平均函数估计思想,减少了计算复杂度,保证了收敛性.在设置的多交叉口交通环境下,仿真试验表明:在不同的交通需求水平和车流到达分布下,此算法均优于定时控制和传统的强化学习算法,并且其参数θ和学习步数是收敛的.
交通工程、交通信号控制、强化学习、交叉口、特征表示
32
U491.5+1(交通工程与公路运输技术管理)
国家自然科学基金项目61263024,51268017;广州市哲学社会科学发展"十二五"规划课题项目13G28
2015-03-10(万方平台首次上网日期,不代表论文的发表时间)
共6页
116-121