10.11772/j.issn.1001-9081.2021111886
引入通信与探索的多智能体强化学习QMIX算法
非平稳性问题是多智能体环境中深度学习面临的主要挑战之一,它打破了大多数单智能体强化学习算法都遵循的马尔可夫假设,使每个智能体在学习过程中都有可能会陷入由其他智能体所创建的环境而导致无终止的循环.为解决上述问题,研究了中心式训练分布式执行(CTDE)架构在强化学习中的实现方法,并分别从智能体间通信和智能体探索这两个角度入手,采用通过方差控制的强化学习算法(VBC)并引入好奇心机制来改进QMIX算法.通过星际争霸Ⅱ学习环境(SC2LE)中的微操场景对所提算法加以验证.实验结果表明,与QMIX算法相比,所提算法的性能有所提升,并且能够得到收敛速度更快的训练模型.
多智能体环境、深度强化学习、中心式训练分布式执行架构、好奇心机制、智能体通信
43
TP18(自动化基础理论)
北京高等学校高水平人才交叉培养实培计划项目;北京建筑大学青年教师科研能力提升计划
2023-02-15(万方平台首次上网日期,不代表论文的发表时间)
共7页
202-208