10.12066/j.issn.1007-2861.2365
具有优先级的深度确定性策略梯度算法在自动驾驶中的应用
深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在自动驾驶领域中应用广泛,但DDPG算法因采用均匀采样而导致低效率策略比例较高、训练效率低、收敛速度慢等.提出了基于优先级的深度确定性策略梯度(priority-based DDPD,P-DDPG)算法,通过优先级采样代替均匀采样来提升采样利用率、改善探索策略和提高神经网络训练效率,并且提出新的奖励函数作为评价标准.最后,在开源赛车模拟(The Open Racing Car Simulator,TORCS)平台上对P-DDPG算法的性能进行了测试,结果表明相对于DDPG算法,P-DDPG算法的累积奖励在25回合之后就有明显提升而DDPG在100回合之后训练效果才逐渐显现,提升约4倍.P-DDPG算法不仅训练效率提升且收敛速度加快.
自动驾驶、DDPG算法、优先级经验、TORCS
29
TP242.6(自动化技术及设备)
上海市科委重点项目19511102803
2023-04-26(万方平台首次上网日期,不代表论文的发表时间)
共13页
105-117