10.3969/j.issn.1673-808X.2022.01.004
基于深度强化学习算法的车辆行为决策研究
针对传统的DDPG算法训练时间长和收敛速度慢的问题,提出一种将引导式学习和优选经验回放机制相结合融入DDPG的算法.改进的DDPG算法在训练初期的动作输出为引导式学习和策略网络共同作用的结果,后期引导式学习不再参与控制.同时引入经验池分离技术,将优势经验样本和劣势经验样本分开存储和固定比例随机抽取.在TORCS平台上进行车辆决策测试,结果表明,改进后的DDPG算法可有效减少训练时间,提升有效行驶距离,提高算法效率.
深度确定性策略梯度算法、引导式学习、优选经验回放、TORCS
42
TP391.9(计算技术、计算机技术)
认知无线电与信息处理教育部重点实验室主任基金;桂林电子科技大学研究生教育创新计划
2022-05-25(万方平台首次上网日期,不代表论文的发表时间)
共7页
29-35