基于策略增益均衡的异构无人机协同决策方法
采用多智能体强化学习方法训练多个异构无人机智能协同执行复杂任务时,通常因为每个无人机的策略改变而影响其他无人机的训练进程,导致训练结果的震荡甚至无法收敛.针对这一问题,以多个攻击型无人机和干扰型无人机组成混合编队,通过封锁区并攻击有价值目标的复杂协同任务为背景,提出了一种新的群体策略水平增益均衡方法,结合多智能体独立强化学习训练技术,通过最大化每个无人机自身的奖赏,而不是优化整个集群的最大化奖赏来训练2种异构智能体协同合作,实现异构智能体稳定的探索和策略优化.最后通过仿真实验证明了该方法的有效性和优越性.
异构无人机;强化学习;协同决策;策略增益均衡;PPO
42
TP181(自动化基础理论)
2021-12-24(万方平台首次上网日期,不代表论文的发表时间)
共7页
174-180