MADDPG算法经验优先抽取机制
针对多智能体深度确定性策略梯度算法(MADDPG)学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽取训练频率为依据,设计优先级评估函数,以优先级作为抽取概率获取学习样本训练神经网络;最后,在合作导航和竞争对抗2类环境中进行6组对比实验,实验结果表明,经验优先抽取机制可提高MADDPG算法的训练速度,学习后的智能体具有更好的表现,同时对深度确定性策略梯度算法(DDPG)控制的多智能体训练具有一定的适用性.
多智能体、深度强化学习、MADDPG、经验优先抽取
36
TP273(自动化技术及设备)
国家重点研发计划项目;江苏省自然科学基金项目;江苏省重点研发计划项目;中国博士后基金项目
2021-01-22(万方平台首次上网日期,不代表论文的发表时间)
共7页
68-74