10.3969/j.issn.1002-137X.2006.03.041
一种多步Q强化学习方法
Q学习是一种重要的强化学习算法.本文针对Q学习和Q(λ)算法的不足,提出了一种具有多步预见能力的Q学习方法:MQ方法.首先给出了MDP模型,在分析Q学习和Q(λ)算法的基础上给出了MQ算法的推导过程,并分析了算法的更新策略和k值的确定原则.通过悬崖步行仿真试验验证了该算法的有效性.理论分析和数值试验均表明,该算法具有较强的预见能力,同时能降低计算复杂度,是一种有效平衡更新速度和复杂度的强化学习方法.
强化学习、MQ算法、Q学习、Q(λ)算法
33
TP3(计算技术、计算机技术)
国家预研基金
2006-04-25(万方平台首次上网日期,不代表论文的发表时间)
共4页
147-150