DOI：10.3969/j.issn.1002-137X.2006.03.041

一种多步Q强化学习方法

引用

摘要：

Q学习是一种重要的强化学习算法.本文针对Q学习和Q(λ)算法的不足,提出了一种具有多步预见能力的Q学习方法:MQ方法.首先给出了MDP模型,在分析Q学习和Q(λ)算法的基础上给出了MQ算法的推导过程,并分析了算法的更新策略和k值的确定原则.通过悬崖步行仿真试验验证了该算法的有效性.理论分析和数值试验均表明,该算法具有较强的预见能力,同时能降低计算复杂度,是一种有效平衡更新速度和复杂度的强化学习方法.

关键词：强化学习、MQ算法、Q学习、Q(λ)算法

所属期刊栏目：33

分类号：TP3(计算技术、计算机技术)

资助基金：国家预研基金

在线出版日期：2006-04-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：147-150

英文信息展示

期刊专题