10.3873/j.issn.1000-1328.2022.05.013
拦截大气层内机动目标的深度强化学习制导律
针对大气层内高速机动目标的拦截问题,提出了一种基于双延迟深度确定性策略梯度(TD3)算法的深度强化学习制导律,它直接将交战状态信息映射为拦截弹的指令加速度,是一种端到端、无模型的制导策略.首先,将攻防双方的交战运动学模型描述为适用于深度强化学习算法的马尔科夫决策过程,之后通过合理地设计算法训练所需的交战场景、动作空间、状态空间和网络结构,并引入奖励函数整形和状态随机初始化,构建了完整的深度强化学习制导算法.仿真结果表明:与比例导引和增强比例导引两种方案相比,深度强化学习制导策略在脱靶量更小的同时能够降低对中制导精度的要求;具有良好的鲁棒性和泛化能力,并且计算负担较小,具备在弹载计算机上运行的条件.
导弹制导、大气层内拦截、机动目标、深度强化学习、马尔科夫决策
43
TJ765.3(火箭、导弹)
国家自然科学基金12072090
2022-06-23(万方平台首次上网日期,不代表论文的发表时间)
共11页
685-695