10.19620/j.cnki.1000-3703.20220500
基于柔性演员-评论家算法的自适应巡航控制研究
针对目前自适应巡航控制技术中,深度强化学习的控制算法环境适应能力不足、模型迁移性及泛化能力较差的问题,提出一种基于最大熵原理和随机离线策略的柔性演员-评论家(SAC)控制算法.构建演员和评论家网络拟合动作值函数和动作策略函数,并使用自调节温度系数改善智能体的环境探索能力;针对奖励稀疏问题,运用奖励塑造思想设计奖励函数;此外,提出一种新的经验回放机制以提高样本利用率.将所提出的控制算法在不同场景中进行仿真及实车验证,并与深度确定性策略梯度(DDPG)算法进行比较,结果表明,该算法具有更好的模型泛化能力和实车迁移效果.
自适应巡航控制、柔性演员-评论家、可迁移性、深度强化学习
U461(汽车工程)
广东省重点领域研发项目2019B090912001
2023-05-12(万方平台首次上网日期,不代表论文的发表时间)
共9页
26-34