基于柔性演员-评论家算法的自适应巡航控制研究

引用

摘要：

针对目前自适应巡航控制技术中,深度强化学习的控制算法环境适应能力不足、模型迁移性及泛化能力较差的问题,提出一种基于最大熵原理和随机离线策略的柔性演员-评论家(SAC)控制算法.构建演员和评论家网络拟合动作值函数和动作策略函数,并使用自调节温度系数改善智能体的环境探索能力;针对奖励稀疏问题,运用奖励塑造思想设计奖励函数;此外,提出一种新的经验回放机制以提高样本利用率.将所提出的控制算法在不同场景中进行仿真及实车验证,并与深度确定性策略梯度(DDPG)算法进行比较,结果表明,该算法具有更好的模型泛化能力和实车迁移效果.

关键词：自适应巡航控制、柔性演员-评论家、可迁移性、深度强化学习

分类号：U461(汽车工程)

资助基金：广东省重点领域研发项目2019B090912001

在线出版日期：2023-05-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：26-34

英文信息展示

期刊专题