DOI：10.16451/j.cnki.issn1003-6059.202103002

序列多智能体强化学习算法

引用

摘要：

针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题,文中提出序列多智能体强化学习算法(SMARL).将智能体的控制网络划分为动作网络和目标网络,以深度确定性策略梯度和序列到序列分别作为分割后的基础网络结构,分离算法结构与规模的相关性.同时,对算法输入输出进行特殊处理,分离算法策略与规模的相关性.SMARL中的智能体可较快适应新的环境,担任不同任务角色,实现快速学习.实验表明SMARL在适应性、性能和训练效率上均较优.

关键词：多智能体强化学习、深度确定性策略梯度(DDPG)、序列到序列(Seq2Seq)、分块结构

所属期刊栏目：34

分类号：TP18(自动化基础理论)

资助基金：国家自然科学基金项目No.61872260

在线出版日期：2021-05-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：206-213

英文信息展示

期刊专题