基于二阶时序差分误差的双网络DQN算法

引用

摘要：

针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法.构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值函数网络分别用于表示先后两轮的值函数,协同更新网络参数,以提高DQN算法中值函数估计的稳定性.基于Open AI Gym平台的实验结果表明,在解决Mountain Car和Cart Pole问题方面,该算法较经典DQN算法具有更好的收敛稳定性.

关键词：深度强化学习、马尔科夫决策过程、深度Q网络、二阶时序差分误差、梯度下降

所属期刊栏目：46

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;江苏省重点研发计划项目;江苏省研究生科研与实践创新计划项目

在线出版日期：2020-05-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：78-85,93

英文信息展示

期刊专题