10.3969/j.issn.1007-130X.2001.02.018
平均奖赏MDP的在策略无模型激励学习算法
本文以随机逼近的形式,提出了一些用于求解平均奖赏Markov决策过程系统方程的在策略无模型激励学习算法。这些算法与广泛且成功 应用于折扣奖赏MDP的SARSA(λ)类算法相似。为比较这些新算法的性能,本文还给出了一些初步的实验结果。
激励学习、Markov决策过程、平均奖赏、折扣奖赏、动态规划
23
TP18(自动化基础理论)
2004-01-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
66-69