多Agent Q学习几点问题的研究及改进

引用

摘要：

提出了一种新颖的基于Q-学习,蚁群算法和轮盘赌算法的多Agent强化学习.在强化学习算法中,当Agent数量增加到足够大时,就会出现动作空间灾难性问题,即:其交互困难,学习速度骤然下降.另外,由于Agent是利用Q值来选择下一步动作的,因此,在学习早期,动作的选择严重束缚于高Q值.在这里,把蚁群算法,轮盘赌算法和强化学习三者结合起来,期望解决上述提出的问题.最后,对新算法的理论分析和实验结果都证明了改进的Q学习是可行的,并且可以有效的提高学习效率.

关键词：多Agent强化学习算法、蚁群算法、轮盘赌算法、Q值、动作空间灾难

所属期刊栏目：30

分类号：TP181(自动化基础理论)

资助基金：教育部科学技术研究基金项目206035:吉林省科技发展计划基金项目20070530

在线出版日期：2009-06-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：2274-2276

英文信息展示

期刊专题