10.3969/j.issn.1007-130X.2019.01.024
基于有效实例的改进U树算法
传统U-Tree算法对于部分观测马尔可夫决策过程POMDP问题的解决已取得较为显著的成效,但是由于边缘节点生长过于随意,所以仍存在树的规模庞大、内存需求比较大、计算复杂度过高的问题.在原U-Tree算法的基础上,通过得到下一步观测值,来划分同一个叶子节点中做相同动作的实例,提出了一种基于有效实例来扩展边缘节点的EIU-Tree算法,大大缩减了计算规模,以此来帮助智能体更好更快地学习,并且在4×3经典栅格问题中做了仿真实验,对比于原有的U-Tree算法,该算法运行效果更好.
部分观测马尔可夫决策过程、强化学习、U-树、Q-学习算法
41
TP393(计算技术、计算机技术)
2019-03-18(万方平台首次上网日期,不代表论文的发表时间)
共6页
185-190