10.19942/j.issn.2096–5915.2022.4.033
基于深度强化学习与高度速率反馈的再入制导方法
为解决具有高升阻比的高超声速飞行器在再入制导中高度存在的周期性振荡现象,提出了一种基于深度强化学习和高度速率反馈的再入制导方法.所提方法以传统预测校正制导方法为基础,进行攻角、初始倾侧角幅值和倾侧角符号指令的求取.接着,引入高度速率反馈进行倾侧角幅值补偿量的求取,来抑制高度存在的周期性振荡现象.其中,针对反馈增益的设计问题,采用深度强化学习方法进行解决:首先,构建以所提制导算法为基础的深度强化学习训练环境;然后,采用深度确定性策略梯度算法进行离线训练;最后,提取出训练好的动作网络,与所提制导算法结合进行在线使用,实现反馈增益的实时调整与倾侧角幅值补偿量的实时求取.通过对比仿真和蒙特卡洛仿真可以发现飞行器终端位置、速度和高度误差分别保持在10 km、100 m/s和2 km范围内,验证所提方法的有效性.所提方法可为进一步研究复杂环境中深度强化学习方法直接生成指导指令提供参考.
高超声速飞行器、预测校正制导、平稳滑翔、深度强化学习、深度确定性策略梯度
5
V249.1(航空仪表、航空设备、飞行控制与导航)
航空基金;北京航空航天大学未来空天技术学院/高等理工学院卓越研究基金
2022-10-11(万方平台首次上网日期,不代表论文的发表时间)
共13页
1-13