10.19678/j.issn.1000-3428.0054557
基于二阶时序差分误差的双网络DQN算法
针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法.构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值函数网络分别用于表示先后两轮的值函数,协同更新网络参数,以提高DQN算法中值函数估计的稳定性.基于Open AI Gym平台的实验结果表明,在解决Mountain Car和Cart Pole问题方面,该算法较经典DQN算法具有更好的收敛稳定性.
深度强化学习、马尔科夫决策过程、深度Q网络、二阶时序差分误差、梯度下降
46
TP391(计算技术、计算机技术)
国家自然科学基金;江苏省重点研发计划项目;江苏省研究生科研与实践创新计划项目
2020-05-29(万方平台首次上网日期,不代表论文的发表时间)
共9页
78-85,93