具有优先级的深度确定性策略梯度算法在自动驾驶中的应用

引用

摘要：

深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在自动驾驶领域中应用广泛,但DDPG算法因采用均匀采样而导致低效率策略比例较高、训练效率低、收敛速度慢等.提出了基于优先级的深度确定性策略梯度(priority-based DDPD,P-DDPG)算法,通过优先级采样代替均匀采样来提升采样利用率、改善探索策略和提高神经网络训练效率,并且提出新的奖励函数作为评价标准.最后,在开源赛车模拟(The Open Racing Car Simulator,TORCS)平台上对P-DDPG算法的性能进行了测试,结果表明相对于DDPG算法,P-DDPG算法的累积奖励在25回合之后就有明显提升而DDPG在100回合之后训练效果才逐渐显现,提升约4倍.P-DDPG算法不仅训练效率提升且收敛速度加快.

关键词：自动驾驶、DDPG算法、优先级经验、TORCS

所属期刊栏目：29

分类号：TP242.6(自动化技术及设备)

资助基金：上海市科委重点项目19511102803

在线出版日期：2023-04-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共13页

页码：105-117

英文信息展示

期刊专题