10.16208/j.issn1000-7024.2017.05.043
基于经验回放Q-Learning的最优控制算法
针对实时系统的在线最优控制策略学计算开销高的缺点,提出基于经验回放和Q-Learning的最优控制算法.采用经验回放(experience replay,ER)对样本进行重复利用,弥补实时系统在线获取样本少的不足;通过Q-Learning算法并采用梯度下降方法对值函数参数向量进行更新;定义基于经验回放和Q-Learning的ER-Q-Learning算法,分析其计算复杂度.仿真结果表明,相比Q-Learning算法、Sarsa算法以及批量的BLSPI算法,ER-Q-Learning算法能在有限时间内平衡更多时间步,具有最快的收敛速度.
控制策略、经验回放、Q学习、实时系统、样本
38
TP181(自动化基础理论)
国家自然科学基金项目61502329
2017-06-23(万方平台首次上网日期,不代表论文的发表时间)
共5页
1352-1355,1365