10.3321/j.issn:1001-0920.2004.11.014
求解部分可观测马氏决策过程的强化学习算法
针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法--CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高.
强化学习、部分可观测Markov决策过程、Sarsa学习、无记忆策略
19
TP319(计算技术、计算机技术)
国家自然科学基金60234030;国家自然科学基金60303012
2004-12-16(万方平台首次上网日期,不代表论文的发表时间)
共4页
1263-1266