10.3969/j.issn.1002-0640.2019.04.029
基于强化学习的无人机自主机动决策方法
提出了一种基于连续动作集强化学习的无人机机动决策方法.通过Actor-Critic强化学习构架下的NRBF神经网络输出状态真实效用值与连续动作控制变量,效用值与动作控制变量的输出层共用隐层以简化网络结构.结合相对熵理论设计隐层节点的自适应调整方法,有效减少了隐层节点数目.对输出动作控制变量,采用基于高斯分布的连续动作选择策略,并依据训练次数调整随机动作控制变量的概率分布,提升了网络对未知策略的探索能力.在3种不同空战态势下的仿真验证了该方法的有效性,结果表明该方法生成的策略鲁棒性较强,动作控制量更加精确.
无人作战飞机、机动决策、强化学习、连续动作、神经网络
44
TJ85(战车、战舰、战机、航天武器)
国家自然科学基金61601505;航空科学基金资助项目20155196022
2019-05-31(万方平台首次上网日期,不代表论文的发表时间)
共8页
142-149