10.3321/j.issn:1002-8331.2002.01.021
一类基于有效跟踪的广义平均奖赏激励学习算法
取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,对传统的平均奖赏激励学习进行了推广,提出了一类广义平均奖赏激励学习算法,并对算法的性能进行了初步的比较实验.
激励学习、Markov、决策过程、平均奖赏、有效跟踪
38
TP301.6(计算技术、计算机技术)
国家自然科学基金;湖南省教育厅科研项目
2004-01-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
65-68