非参数化近似策略迭代并行强化学习算法

引用

摘要：

针对在线近似策略迭代强化学习算法收敛速度较慢的问题,提出一种非参数化近似策略迭代并行强化学习算法.通过学习单元构建样本采集过程确定并行单元数量,基于径向基函数线性逼近结构设计强化学习单元,然后采用以样本空间完全覆盖为目标的估计方法实现单元自主构建,并基于近似策略迭代进行单元自主学习.其中,各单元通过平均加权法融合得到算法的整体策略.一级倒立摆仿真结果表明,与online LSPI算法和BLSPI算法相比,该算法在保持较高加速比的同时具有较高的效率,其控制参数更少,收敛速度更快.

关键词：并行强化学习、非参数化、策略迭代、K均值聚类、倒立摆

所属期刊栏目：44

分类号：TP181(自动化基础理论)

资助基金：国家高技术研究发展计划SS2013AA041003

在线出版日期：2019-01-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：313-320

英文信息展示

期刊专题