DOI：10.3321/j.issn:1001-0920.2004.11.014

求解部分可观测马氏决策过程的强化学习算法

引用

摘要：

针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法--CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高.

关键词：强化学习、部分可观测Markov决策过程、Sarsa学习、无记忆策略

所属期刊栏目：19

分类号：TP319(计算技术、计算机技术)

资助基金：国家自然科学基金60234030;国家自然科学基金60303012

在线出版日期：2004-12-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：1263-1266

英文信息展示

期刊专题