DOI：10.3969/j.issn.1006-9348.2022.11.088

基于UA-QMIX的价值函数分解方法研究

引用

摘要：

针对智能体通信时受外界信息轰炸、协作式多智能体在训练初期的无效探索等问题,提出一种改进的UA-QMIX算法.通过价值函数分解理论和集中式学习分布式执行作为基本条件,在智能体效用网络中加入注意力机制,增强智能体之间对彼此影响力的关注.采用传统的ε-贪婪策略来平衡探索与利用,改进ε-贪婪策略为理性ε-贪婪策略,减少盲目探索.仿真结果表明,所提算法有效降低信息过载以及训练初期的无效探索,且在星际争霸中的收敛速度和平均胜率都达到了最优.

关键词：强化学习、多智能体、深度学习、注意力机制

所属期刊栏目：39

分类号：TP18(自动化基础理论)

资助基金：江苏省333工程项目;国家自然科学基金

在线出版日期：2023-01-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：448-452

英文信息展示

期刊专题