一种基于多步竞争网络的多智能体协作方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.19678/j.issn.1000-3428.0061437

一种基于多步竞争网络的多智能体协作方法

引用
多智能体高效协作是多智能体深度强化学习的重要目标,然而多智能体决策系统中存在的环境非平稳、维数灾难等问题使得这一目标难以实现.现有值分解方法可在环境平稳性和智能体拓展性之间取得较好平衡,但忽视了智能体策略网络的重要性,并且在学习联合动作值函数时未充分利用经验池中保存的完整历史轨迹.提出一种基于多智能体多步竞争网络的多智能体协作方法,在训练过程中使用智能体网络和价值网络对智能体动作评估和环境状态评估进行解耦,同时针对整条历史轨迹完成多步学习以估计时间差分目标,通过优化近似联合动作值函数的混合网络集中且端到端地训练分散的多智能体协作策略.实验结果表明,该方法在6种场景中的平均胜率均优于基于值分解网络、单调值函数分解、值函数变换分解、反事实多智能体策略梯度的多智能体协作方法,并且具有较快的收敛速度和较好的稳定性.

多智能体协作、深度强化学习、值分解、多步竞争网络、动作值函数

48

TP18(自动化基础理论)

国家自然科学基金;中央高校基本科研业务费专项;安徽省自然科学基金;民航飞行技术与飞行安全重点实验室开放基金

2022-05-17(万方平台首次上网日期,不代表论文的发表时间)

共8页

74-81

相关文献
评论
暂无封面信息
查看本期封面目录

计算机工程

1000-3428

31-1289/TP

48

2022,48(5)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn