一种高斯过程的带参近似策略迭代算法

引用

摘要：

在大规模状态空间或者连续状态空间中，将函数近似与强化学习相结合是当前机器学习领域的一个研究热点；同时，在学习过程中如何平衡探索和利用的问题更是强化学习领域的一个研究难点。针对大规模状态空间或者连续状态空间、确定环境问题中的探索和利用的平衡问题，提出了一种基于高斯过程的近似策略迭代算法。该算法利用高斯过程对带参值函数进行建模，结合生成模型，根据贝叶斯推理，求解值函数的后验分布。在学习过程中，根据值函数的概率分布，求解动作的信息价值增益，结合值函数的期望值，选择相应的动作。在一定程度上，该算法可以解决探索和利用的平衡问题，加快算法收敛。将该算法用于经典的 Mountain Car 问题，实验结果表明，该算法收敛速度较快，收敛精度较好。

关键词：强化学习、策略迭代、高斯过程、贝叶斯推理、函数近似

分类号：TP181(自动化基础理论)

资助基金：国家自然科学基金61070223,61103045,61170020,61272005,61272244;江苏省自然科学基金BK2012616;吉林大学符号计算与知识工程教育部重点实验室基金93K172012K04

在线出版日期：2014-01-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：2676-2686

英文信息展示

期刊专题