DOI：10.16383/j.aas.c190406

采用分类经验回放的深度确定性策略梯度方法

引用

摘要：

深度确定性策略梯度(Deep deterministic policy gradient,DDPG)方法在连续控制任务中取得了良好的性能表现.为进一步提高深度确定性策略梯度方法中经验回放机制的效率,提出分类经验回放方法,并采用两种方式对经验样本分类:基于时序差分误差样本分类的深度确定性策略梯度方法(DDPG with temporal difference-error classification,TDC-DDPG)和基于立即奖赏样本分类的深度确定性策略梯度方法(DDPG with reward classification,RC-DDPG).在TDC-DDPG和RC-DDPG方法中,分别使用两个经验缓冲池,对产生的经验样本按照重要性程度分类存储,网络模型训练时通过选取较多重要性程度高的样本加快模型学习.在连续控制任务中对分类经验回放方法进行测试,实验结果表明,与随机选取经验样本的深度确定性策略梯度方法相比,TDC-DDPG和RC-DDPG方法具有更好的性能.

关键词：连续控制任务、深度确定性策略梯度、经验回放、分类经验回放

所属期刊栏目：48

分类号：TP393;TP273;O241

资助基金：国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;江苏高校优势学科建设工程项目

在线出版日期：2022-07-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：1816-1823

英文信息展示

期刊专题