10.3969/j.issn.1000-3428.2005.22.002
求解POMDP的动态合并激励学习算法
把POMDP作为激励学习(Reinforcement Learning)问题的模型,对于具有大状态空间问题的求解有比较好的适应性和有效性.但由于其求解的难度远远地超过了一般的Markov决策过程(MDP)的求解,因此还有许多问题有待解决.该文基于这样的背景,在给定一些特殊的约束条件下提出的一种求解POMDP的方法,即求解POMDP的动态合并激励学习算法.该方法利用区域的概念,在环境状态空间上建立一个区域系统,Agent在区域系统的每个区域上独自并行地实现其最优目标,加快了运算速度.然后把各组成部分的最优值函数按一定的方式整合,最后得出POMDP的最优解.
部分可观测Markov决策过程、激励学习、动态合并、信度状态
31
TP182(自动化基础理论)
中国科学院资助项目60075019
2006-01-19(万方平台首次上网日期,不代表论文的发表时间)
共4页
4-6,148