DOI：10.11896/j.issn.1002-137X.2014.09.044

一种批量最小二乘策略迭代方法

引用

摘要：

策略迭代是一种迭代地评估和改进控制策略的强化学习方法.采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数据有效性.针对在线的最小二乘策略迭代方法对样本数据的利用不充分、每个样本仅使用一次就被丢弃的问题,提出一种批量最小二乘策略迭代算法(BLSPI),并从理论上证明其收敛性.BLSPI算法将批量更新方法与在线最小二乘策略迭代方法相结合,在线保存生成的样本数据,多次重复使用这些样本数据并结合最小二乘方法来更新控制策略.将BLSPI算法用于倒立摆实验平台,实验结果表明,该算法可以有效利用之前的经验知识,提高经验利用率,加快收敛速度.

关键词：强化学习、批量更新、最小二乘、策略迭代

所属期刊栏目：41

分类号：TP181(自动化基础理论)

资助基金：国家自然科学基金项目61070223,61103045,61070122,61272005,61303108;江苏省自然科学基金BK2012616;江苏省高校自然科学研究项目09KJA520002,09KJB520012,13KJB520020;吉林大学符号计算与知识工程教育部重点实验室资助项目93K172012K04

在线出版日期：2014-11-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：232-238

英文信息展示

期刊专题