10.3969/j.issn.1673-4785.2008.02.011
动态影响图模型研究
部分可观察马尔可夫决策过程在策略空间和状态空间上的计算复杂性,使求解其一个最优策略成为NP-hard难题.为此,提出一种动态影响图模型来建模不确定环境下的Agent动态决策问题.动态影响图模型以有向无环图表示系统变量之间的复杂关系.首先,动态影响图利用动态贝叶斯网络表示转移模型和观察模型以简化系统的状态空间;其次,效用函数以效用结点的形式清晰地表示出来,从而简化系统效用函数的表示;最后,通过决策结点表示系统的行为来简化系统的策略空间.通过实例从3个方面和POMDP模型进行了比较,研究的结果表明,动态影响图模型为大型的POMDP问题提供了一种简明的表示方式,最后在Robocup环境初步验证了该模型.
动态贝叶斯网络、影响图、马尔可夫决策过程、部分可观察马尔可夫决策过程、动态影响图
3
TP181(自动化基础理论)
国家自然科学基金60575023;60705015;安徽省自然科学基金070412064
2008-06-25(万方平台首次上网日期,不代表论文的发表时间)
共8页
159-166