10.3969/j.issn.1002-2279.2011.01.020
顺序价值迭代算法求解不确定规划
基于Markov决策过程(MDP)的规划方法可以处理多种不确定规划问题,价值迭代算法(VI)是求解MDP的经典算法,但VI需要计算更新每个状态的值,求解过程相当缓慢.在分析了MDP状态图本身的因果依赖关系的基础上,提出一种改进的价值迭代算法,称为顺序价值迭代算法(SVI).它先将一个MDP分解成多个拓扑有序的强连通分量,然后应用价值迭代算法顺序求解各个分量,这样处理可以避免对大量无用状态的计算并使得可用状态排成拓扑序列.对比实验结果证明了该算法的有效性及优异性能.
智能规划、不确定规划、Markov决策过程、价值迭代
32
TP319(计算技术、计算机技术)
2011-09-15(万方平台首次上网日期,不代表论文的发表时间)
共4页
71-74