MADDPG算法经验优先抽取机制

引用

摘要：

针对多智能体深度确定性策略梯度算法(MADDPG)学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽取训练频率为依据,设计优先级评估函数,以优先级作为抽取概率获取学习样本训练神经网络;最后,在合作导航和竞争对抗2类环境中进行6组对比实验,实验结果表明,经验优先抽取机制可提高MADDPG算法的训练速度,学习后的智能体具有更好的表现,同时对深度确定性策略梯度算法(DDPG)控制的多智能体训练具有一定的适用性.

关键词：多智能体、深度强化学习、MADDPG、经验优先抽取

所属期刊栏目：36

分类号：TP273(自动化技术及设备)

资助基金：国家重点研发计划项目;江苏省自然科学基金项目;江苏省重点研发计划项目;中国博士后基金项目

在线出版日期：2021-01-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：68-74

英文信息展示

期刊专题