基于MASAC的无人机集群对抗博弈方法
随着无人机智能化水平的提高和集群控制技术的发展,无人机集群对抗智能决策方法将成为未来无人机作战的关键技术.无人机集群对抗学习环境具有维度高、非线性、信息有缺失、动作空间连续等复杂特点.近年来,以深度学习和强化学习为代表的人工智能技术取得了很大突破,深度强化学习在解决复杂环境下智能决策问题方面展现出了不俗能力.本文受多智能体集中式训练-分布式执行框架和最大化策略熵思想的启发,提出一种基于非完全信息的多智能体柔性行动器-评判器(multi-agent soft actor-critic,MASAC)深度强化学习方法,建立基于多智能体深度强化学习的无人机集群对抗博弈模型,构建连续空间多无人机作战环境,对红蓝双方无人机集群的非对称性对抗进行仿真实验,实验结果表明MASAC优于现有流行的多智能体深度强化学习方法,能使博弈双方收敛到收益更高的博弈均衡点.进一步对MASAC的收敛情况进行实验和分析,结果显示MASAC具有良好的收敛性和稳定性,能够保证MASAC在无人机集群对抗智能决策方面的实用性.
深度强化学习、多智能体、对抗博弈、MASAC、无人机集群
52
TP181;TP391;F274
国家重点研发计划2018AAA0100804
2023-01-16(万方平台首次上网日期,不代表论文的发表时间)
共16页
2254-2269