10.3969/j.issn.1000-436X.2011.01.009
最小状态变元平均奖赏的强化学习方法
针对采用折扣奖赏作为评价目标的Q学习无法体现对后续动作的影响问题,提出将平均奖赏和Q学习相结合的AR-Q-Learning算法,并进行收敛性证明.针对学习参数个数随着状态变量维数呈几何级增长的"维数灾"问题,提出最小状态变元的思想.将最小变元思想和平均奖赏用于积木世界的强化学习中,试验结果表明,该方法更具有后效性,加快算法的收敛速度,同时在一定程度上解决积木世界中的"维数灾"问题.
强化学习、平均奖赏、俄罗斯方块、最小状态
32
TP18(自动化基础理论)
国家自然科学基金资助项目60873116,61070223,61070122;江苏省自然科学基金资助项目BK2008161,BK2009116;江苏省高校自然科学研究基金资助项目09KJA520002;江苏省现代企业信息化应用支撑软件工程技术研究开发中心基金资助项目SX200804
2011-05-30(万方平台首次上网日期,不代表论文的发表时间)
共6页
66-71