基于自注意力机制和策略映射重组的多智能体强化学习算法

引用

摘要：

多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)在群体控制领域中被广泛应用,但由于单个智能体的马尔可夫决策模型被破坏,现有的MARL算法难以学习到最优策略,且训练中智能体的随机性会导致策略不稳定.本文从状态空间到行为空间的映射出发,研究同构多智能体系统的耦合转换,以提高策略的先进性及稳定性.首先,我们调查了同构智能体行为空间的重组,打破智能体与策略对应的固定思维,通过构建抽象智能体将智能体之间的耦合转换为不同智能体行为空间同一维度的耦合,以提高策略网络的训练效率和稳定.随后,在重组策略映射的基础上,我们从序列决策的角度出发,为抽象智能体的策略网络和评估网络分别设计自注意力模块,编码并稀疏化智能体的状态信息.重组后的状态信息经过自注意力编码后,能显示地解释智能体的决策行为.本文在三个常用的多智能体任务上对所提出方法的有效性进行了全面的验证和分析,实验结果表明,在集中奖励的情况下,本文所提出的方法能够学到比基线方法更为先进的策略,平均回报提高了 20％,且训练过程与训练结果的稳定性提高了 50％以上.多个对应的消融实验也分别验证了抽象智能体与自注意力模块的有效性,进一步为我们的结论提供支持.

关键词：多智能体系统、多智能体强化学习、深度强化学习、注意力机制

所属期刊栏目：45

分类号：TP18(自动化基础理论)

资助基金：国家自然科学基金;国家自然科学基金;之江实验室开放课题;中国陕西省重点研发计划项目;西北工业大学博士生创新基金

在线出版日期：2022-09-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共17页

页码：1842-1858

英文信息展示

期刊专题