基于动态融合目标的深度强化学习算法研究

引用

摘要：

针对深度强化学习算法中存在的过估计问题,提出了一种目标动态融合机制,在Deep Q Networks(DQN)算法基础上进行改进,通过融合Sarsa算法的在线更新目标,来减少DQN算法存在的过估计影响,动态地结合了DQN算法和Sarsa算法各自优点,提出了DTDQN(Dynamic Target Deep Q Network)算法.利用公测平台Ope-nAI Gym上Cart-Pole控制问题进行仿真对比实验,结果表明DTDQN算法能够有效地减少值函数过估计,具有更好的学习性能,训练稳定性有明显提升.

关键词：深度强化学习、过估计、更新目标、动态融合

所属期刊栏目：55

分类号：TP273(自动化技术及设备)

资助基金：国家部委"十五"预研项目

在线出版日期：2019-10-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：157-161

英文信息展示

期刊专题