10.3969/j.issn.1000-3428.2013.10.046
基于点的FO-POMDP值迭代方法研究
在部分可观测马尔可夫决策过程(POMDP)的基础上,给出一阶部分可观测马尔科夫决策过程(FO-POMDP),用一阶逻辑的情景演算结构表达POMDP。对FO-POMDP模型中状态的抽象层次进行刻画,提出状态粒度、信念状态粒度的概念。采用粒度归结方法,将信念状态的粒度归结到某一确定粒度下,运用确定粒度下的信念点距离度量方法,将基于点的价值迭代(PBVI)扩展到逻辑抽象层面提出一阶PBVI(FO-PBVI)。实验结果证明,该算法的求解速度较快,求解质量较好。
部分可观测马尔科夫决策过程、状态空间、信念状态、粒度归结、基于点的值迭代
TP18(自动化基础理论)
国家自然科学基金资助项目71071160
2013-12-04(万方平台首次上网日期,不代表论文的发表时间)
共4页
217-220