基于策略迭代和值迭代的POMDP算法

引用

摘要：

部分可观察Markov决策过程是通过引入信念状态空间将非Markov链问题转化为Markov链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支.介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和值迭代的部分可观察Markov决策算法,该算法利用线性规划和动态规划的思想,解决当信念状态空间较大时出现的"维数灾"问题,得到Markov决策的逼近最优解.实验数据表明该算法是可行的和有效的.

关键词：部分可观察Markov决策、决策算法、智能体、值迭代、策略迭代

所属期刊栏目：45

分类号：TP18(自动化基础理论)

在线出版日期：2009-02-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：1763-1768

英文信息展示

期刊专题