有限阶段马尔可夫决策的可变限速控制模型
分析了高速公路主线可变限速控制的作用,研究了现有的限速方法,将高速公路主线可变限速控制过程看作是离散时间的马尔可夫决策过程,提出基于强化学习与有限阶段马尔可夫决策的可变限速控制模型,通过与交通环境的交互学习进行模型的动态调整。采用有限阶段向后递归迭代的算法对模型进行求解,运用Paramics仿真软件对长吉高速公路全程进行仿真。仿真结果表明:在平均限速值低于设计时速6.25%的情况下,平均流量不仅没有降低反而增加了3.20%。可见,该模型可以有效提高交通流量,改善高速公路主线的交通状况。
交通信息工程、可变限速控制、马尔可夫决策、强化学习、高速公路主线
11
U491(交通工程与公路运输技术管理)
国家863计划项目2009AA11Z218 2009AA11Z208;吉林省科技发展计划项目20100176;吉林大学基本科研业务费科学前沿与交叉学科创新项目
2012-04-21(万方平台首次上网日期,不代表论文的发表时间)
109-114