10.3778/j.issn.1002-8331.1712-0280
基于动态融合目标的深度强化学习算法研究
针对深度强化学习算法中存在的过估计问题,提出了一种目标动态融合机制,在Deep Q Networks(DQN)算法基础上进行改进,通过融合Sarsa算法的在线更新目标,来减少DQN算法存在的过估计影响,动态地结合了DQN算法和Sarsa算法各自优点,提出了DTDQN(Dynamic Target Deep Q Network)算法.利用公测平台Ope-nAI Gym上Cart-Pole控制问题进行仿真对比实验,结果表明DTDQN算法能够有效地减少值函数过估计,具有更好的学习性能,训练稳定性有明显提升.
深度强化学习、过估计、更新目标、动态融合
55
TP273(自动化技术及设备)
国家部委"十五"预研项目
2019-10-30(万方平台首次上网日期,不代表论文的发表时间)
共5页
157-161