专家监督的SAC强化学习重载列车运行优化控制
重载列车是我国大宗商品运输的重要方式,因载重大、车身长、线路复杂等因素导致重载列车的控制变得困难.本文将列车运行过程分为启动牵引、巡航控制、停车制动3个阶段,基于多质点重载列车纵向动力学模型,考虑常用空气制动,利用(SAC)强化学习方法,结合循环神经网络对专家经验数据进行行为克隆,并将克隆出的专家策略对强化学习训练进行监督,训练了一种新的智能驾驶操控策略.本文的策略可以高效学习驾驶经验数据,不断从学习中提高目标奖励,得到最优控制策略.仿真结果表明:本文所提的控制策略比未受专家模型监督的强化学习算法更优,奖励提升的周期更快,并能获得更高的奖励,训练出的控制器运行效果更加高效、稳定.
重载列车、强化学习、行为克隆、专家策略
39
U284.48;TP273;TP11
国家自然科学基金;国家自然科学基金;国家自然科学基金;江西省自然科学基金;江西省科技专项;江西省青年科学基金重点资助项目
2022-06-24(万方平台首次上网日期,不代表论文的发表时间)
共10页
799-808