采用分类经验回放的深度确定性策略梯度方法
深度确定性策略梯度(Deep deterministic policy gradient,DDPG)方法在连续控制任务中取得了良好的性能表现.为进一步提高深度确定性策略梯度方法中经验回放机制的效率,提出分类经验回放方法,并采用两种方式对经验样本分类:基于时序差分误差样本分类的深度确定性策略梯度方法(DDPG with temporal difference-error classification,TDC-DDPG)和基于立即奖赏样本分类的深度确定性策略梯度方法(DDPG with reward classification,RC-DDPG).在TDC-DDPG和RC-DDPG方法中,分别使用两个经验缓冲池,对产生的经验样本按照重要性程度分类存储,网络模型训练时通过选取较多重要性程度高的样本加快模型学习.在连续控制任务中对分类经验回放方法进行测试,实验结果表明,与随机选取经验样本的深度确定性策略梯度方法相比,TDC-DDPG和RC-DDPG方法具有更好的性能.
连续控制任务、深度确定性策略梯度、经验回放、分类经验回放
48
TP393;TP273;O241
国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;江苏高校优势学科建设工程项目
2022-07-29(万方平台首次上网日期,不代表论文的发表时间)
共8页
1816-1823