10.3969/j.issn.1001-0645.2005.04.012
一种快速强化学习方法研究
在对资格迹理论研究的基础上,提出了一种延迟快速强化学习算法DFSARSA(λ)(延迟快速SARSA(λ)算法).算法的主要思想是通过对资格迹的重新定义和对即时差分TD(λ)偏差的跟踪,使强化学习中Q值在需要时进行更新,而SARSA(λ)每一步都对Q值进行更新,该方法使SARSA(λ)算法的更新计算复杂度从O(|S||A|)降到了O(|A|),提高了强化学习速度,仿真实验证明了该算法的有效性.
强化学习、资格迹、SARSA(λ)算法、DFSARSA(λ)算法
25
TP181(自动化基础理论)
国家部委预研基金40404070302
2005-06-02(万方平台首次上网日期,不代表论文的发表时间)
共4页
328-331