10.3969/j.issn.1001-6600.2006.04.015
一种基于性能势的无折扣强化学习算法
传统基于性能势的学习算法能获得马尔可夫决策问题的最优策略.这些算法主要采用单路径采样的方法,使得学习算法效率不高.将性能势与强化学习相结合,提出了一种基于性能势的无折扣值迭代学习算法--G学习,并将其与经典的无折扣强化学习算法(R学习)相比较,获得了较好的实验结果.
强化学习、性能势、无折扣、值迭代
24
TP18(自动化基础理论)
国家自然科学基金60475026
2006-11-21(万方平台首次上网日期,不代表论文的发表时间)
共4页
58-61