DOI：10.16208/j.issn1000-7024.2017.05.043

基于经验回放Q-Learning的最优控制算法

引用

摘要：

针对实时系统的在线最优控制策略学计算开销高的缺点,提出基于经验回放和Q-Learning的最优控制算法.采用经验回放(experience replay,ER)对样本进行重复利用,弥补实时系统在线获取样本少的不足;通过Q-Learning算法并采用梯度下降方法对值函数参数向量进行更新;定义基于经验回放和Q-Learning的ER-Q-Learning算法,分析其计算复杂度.仿真结果表明,相比Q-Learning算法、Sarsa算法以及批量的BLSPI算法,ER-Q-Learning算法能在有限时间内平衡更多时间步,具有最快的收敛速度.

关键词：控制策略、经验回放、Q学习、实时系统、样本

所属期刊栏目：38

分类号：TP181(自动化基础理论)

资助基金：国家自然科学基金项目61502329

在线出版日期：2017-06-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：1352-1355,1365

英文信息展示

期刊专题