DOI：10.3969/j.issn.1000-3428.2005.22.002

求解POMDP的动态合并激励学习算法

引用

摘要：

把POMDP作为激励学习(Reinforcement Learning)问题的模型,对于具有大状态空间问题的求解有比较好的适应性和有效性.但由于其求解的难度远远地超过了一般的Markov决策过程(MDP)的求解,因此还有许多问题有待解决.该文基于这样的背景,在给定一些特殊的约束条件下提出的一种求解POMDP的方法,即求解POMDP的动态合并激励学习算法.该方法利用区域的概念,在环境状态空间上建立一个区域系统,Agent在区域系统的每个区域上独自并行地实现其最优目标,加快了运算速度.然后把各组成部分的最优值函数按一定的方式整合,最后得出POMDP的最优解.

关键词：部分可观测Markov决策过程、激励学习、动态合并、信度状态

所属期刊栏目：31

分类号：TP182(自动化基础理论)

资助基金：中国科学院资助项目60075019

在线出版日期：2006-01-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：4-6,148

英文信息展示

期刊专题