引入通信与探索的多智能体强化学习QMIX算法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.11772/j.issn.1001-9081.2021111886

引入通信与探索的多智能体强化学习QMIX算法

引用
非平稳性问题是多智能体环境中深度学习面临的主要挑战之一,它打破了大多数单智能体强化学习算法都遵循的马尔可夫假设,使每个智能体在学习过程中都有可能会陷入由其他智能体所创建的环境而导致无终止的循环.为解决上述问题,研究了中心式训练分布式执行(CTDE)架构在强化学习中的实现方法,并分别从智能体间通信和智能体探索这两个角度入手,采用通过方差控制的强化学习算法(VBC)并引入好奇心机制来改进QMIX算法.通过星际争霸Ⅱ学习环境(SC2LE)中的微操场景对所提算法加以验证.实验结果表明,与QMIX算法相比,所提算法的性能有所提升,并且能够得到收敛速度更快的训练模型.

多智能体环境、深度强化学习、中心式训练分布式执行架构、好奇心机制、智能体通信

43

TP18(自动化基础理论)

北京高等学校高水平人才交叉培养实培计划项目;北京建筑大学青年教师科研能力提升计划

2023-02-15(万方平台首次上网日期,不代表论文的发表时间)

共7页

202-208

相关文献
评论
暂无封面信息
查看本期封面目录

计算机应用

1001-9081

51-1307/TP

43

2023,43(1)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn