10.3969/j.issn.1000-3428.2013.04.049
基于后验信念聚类的在线规划算法
在连续状态的部分可观察马尔可夫决策过程中,在线规划无法同时满足高实时性与低误差的要求.为此,提出一种基于后验信念聚类的在线规划算法.使用KL散度分析连续状态下后验信念之间的误差,根据误差分析结果对后验信念进行聚类,利用聚类后验信念计算报酬值,并采用分支界限裁剪方法裁剪后验信念与或树.实验结果表明,该算法能够有效降低求解问题的规模,消除重复计算,具有较好的实时性和较低的误差.
部分可观察马尔可夫决策过程、后验信念聚类、在线规划、KL散度、分支界限
39
TP301.6(计算技术、计算机技术)
国家自然科学基金资助项目61074058;广东省自然科学基金资助项目S2011040004769
2013-08-13(万方平台首次上网日期,不代表论文的发表时间)
共5页
214-218