10.3969/j.issn.1000-7024.2014.03.032
性能势算法研究及在RoboCup中的应用
强化学习是人工智能领域中解决学习控制的一种重要方法.在强化学习算法中,平均奖赏强化学习是以平均奖赏值作为参照标准,适用于解决具有循环特性或不具终结状态的问题,其存在参数和环境的敏感及收敛速度慢等问题,并且强调的是单个智能体的独立学习.针对上述问题,考虑单个智能体与其它智能体的关系及影响,将一种改进的基于性能势强化学习算法——G-learning引入到多智能体系统中,设计出一种新的强化学习算法,将新设计的强化学习算法应用在RoboCup的Keepaway平台上.仿真结果表明了在选择较好参考状态的条件下有效提高了强化学习算法在Keepaway平台的性能表现.
足球机器人、强化学习、性能势、G-learning算法、多智能体系统
35
TP242.6(自动化技术及设备)
2014-04-17(万方平台首次上网日期,不代表论文的发表时间)
共4页
905-908