10.3969/j.issn.1006-9348.2022.11.088
基于UA-QMIX的价值函数分解方法研究
针对智能体通信时受外界信息轰炸、协作式多智能体在训练初期的无效探索等问题,提出一种改进的UA-QMIX算法.通过价值函数分解理论和集中式学习分布式执行作为基本条件,在智能体效用网络中加入注意力机制,增强智能体之间对彼此影响力的关注.采用传统的ε-贪婪策略来平衡探索与利用,改进ε-贪婪策略为理性ε-贪婪策略,减少盲目探索.仿真结果表明,所提算法有效降低信息过载以及训练初期的无效探索,且在星际争霸中的收敛速度和平均胜率都达到了最优.
强化学习、多智能体、深度学习、注意力机制
39
TP18(自动化基础理论)
江苏省333工程项目;国家自然科学基金
2023-01-07(万方平台首次上网日期,不代表论文的发表时间)
共5页
448-452