基于策略迭代和值迭代的POMDP算法
部分可观察Markov决策过程是通过引入信念状态空间将非Markov链问题转化为Markov链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支.介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和值迭代的部分可观察Markov决策算法,该算法利用线性规划和动态规划的思想,解决当信念状态空间较大时出现的"维数灾"问题,得到Markov决策的逼近最优解.实验数据表明该算法是可行的和有效的.
部分可观察Markov决策、决策算法、智能体、值迭代、策略迭代
45
TP18(自动化基础理论)
2009-02-18(万方平台首次上网日期,不代表论文的发表时间)
共6页
1763-1768