协作多智能体深度强化学习研究综述

引用

摘要：

多智能体系统是由多个智能体与环境交互组成的分布式决策系统,是分布式人工智能的一个重要研究方向,在复杂未知的现实社会具有广阔的应用前景,如工业、农业、军事和航空航天等群体机器人系统,以及交通控制、资源管理、商业金融和游戏AI等.多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)依托强化学习在未知环境中的序贯决策能力,融合了运筹学、博弈论和群体心理学等众多学科,能够更好地发挥多个智能体的协同优势,进而低成本、高效率地完成复杂任务.本文着重针对无通信环境下的协作多智能体深度强化学习研究成果进行分析、对比和展望.首先,介绍了MARL的研究背景及其学习任务的分类.其次,根据MARL重点研究内容,将多智能体强化学习算法分为价值分解、Actor-Critic和经验回放三个类别加以剖析,并从环境非平稳性、信度分配和收敛性能等不同角度对比算法差异性.最后,分析了MARL领域未来研究所面临的一些挑战,并对MARL的应用和前景进行展望.

关键词：多智能体、深度学习、强化学习、协作学习、价值分解、Actor-Critic、经验回放

所属期刊栏目：29

分类号：TJ760;TP181(火箭、导弹)

资助基金：国家自然科学基金;辽宁省科学研究项目

在线出版日期：2023-01-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：78-88

英文信息展示

期刊专题