10.3321/j.issn:1002-0446.2003.04.013
一种新的多智能体强化学习算法及其在多机器人协作任务中的应用
在多机器人系统中,评价一个机器人行为的好坏常常依赖于其它机器人的行为,此时必须采用组合动作以实现多机器人的协作,但采用组合动作的强化学习算法由于学习空间异常庞大而收敛得极慢.本文提出的新方法通过预测各机器人执行动作的概率来降低学习空间的维数,并应用于多机器人协作任务之中.实验结果表明,基于预测的加速强化学习算法可以比原始算法更快地获得多机器人的协作策略.
分布式强化学习、加速算法、多智能体系统
25
TP24(自动化技术及设备)
中国科学院重点实验室基金RL200106;武器装备预研基金;国防科技应用基础研究基金
2003-09-12(万方平台首次上网日期,不代表论文的发表时间)
共6页
344-348,362