一种基于多步竞争网络的多智能体协作方法

引用

摘要：

多智能体高效协作是多智能体深度强化学习的重要目标,然而多智能体决策系统中存在的环境非平稳、维数灾难等问题使得这一目标难以实现.现有值分解方法可在环境平稳性和智能体拓展性之间取得较好平衡,但忽视了智能体策略网络的重要性,并且在学习联合动作值函数时未充分利用经验池中保存的完整历史轨迹.提出一种基于多智能体多步竞争网络的多智能体协作方法,在训练过程中使用智能体网络和价值网络对智能体动作评估和环境状态评估进行解耦,同时针对整条历史轨迹完成多步学习以估计时间差分目标,通过优化近似联合动作值函数的混合网络集中且端到端地训练分散的多智能体协作策略.实验结果表明,该方法在6种场景中的平均胜率均优于基于值分解网络、单调值函数分解、值函数变换分解、反事实多智能体策略梯度的多智能体协作方法,并且具有较快的收敛速度和较好的稳定性.

关键词：多智能体协作、深度强化学习、值分解、多步竞争网络、动作值函数

所属期刊栏目：48

分类号：TP18(自动化基础理论)

资助基金：国家自然科学基金;中央高校基本科研业务费专项;安徽省自然科学基金;民航飞行技术与飞行安全重点实验室开放基金

在线出版日期：2022-05-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：74-81

英文信息展示

期刊专题