10.19678/j.issn.1000-3428.0048935
非参数化近似策略迭代并行强化学习算法
针对在线近似策略迭代强化学习算法收敛速度较慢的问题,提出一种非参数化近似策略迭代并行强化学习算法.通过学习单元构建样本采集过程确定并行单元数量,基于径向基函数线性逼近结构设计强化学习单元,然后采用以样本空间完全覆盖为目标的估计方法实现单元自主构建,并基于近似策略迭代进行单元自主学习.其中,各单元通过平均加权法融合得到算法的整体策略.一级倒立摆仿真结果表明,与online LSPI算法和BLSPI算法相比,该算法在保持较高加速比的同时具有较高的效率,其控制参数更少,收敛速度更快.
并行强化学习、非参数化、策略迭代、K均值聚类、倒立摆
44
TP181(自动化基础理论)
国家高技术研究发展计划SS2013AA041003
2019-01-22(万方平台首次上网日期,不代表论文的发表时间)
共8页
313-320