10.3969/j.issn.2096-4641.2021.03.005
基于强化学习的可回收运载火箭着陆制导
可回收运载火箭的着陆制导需要严格保证着陆位置、速度精度,并尽量减小燃料消耗.基于最优控制的着陆制导方法需要依赖火箭精确模型,不具有对模型偏差的泛化能力.针对此问题,本文基于强化学习方法,通过不基于模型的交互采样,训练了神经网络形式的火箭着陆制导策略.首先,建立火箭着陆制导问题的马尔可夫决策过程模型,根据终端约束和燃料消耗指标设计了分阶段奖励函数;然后,在此基础上设计了多层感知机制导策略网络,并使用不基于模型的邻近策略优化算法,通过与火箭着陆制导马尔可夫决策过程的交互采样,实现对制导策略网络的迭代优化;最后,在可回收运载火箭着陆段仿真场景下对制导策略进行验证.仿真结果表明,本文提出的强化学习着陆制导策略能够保证火箭的着陆精度、燃料消耗与最优解相近,且能够泛化至火箭模型参数存在偏差的工况.
着陆制导;可回收运载火箭;最优控制;强化学习;垂直回收
4
V475.1(航天器及其运载工具)
2021-09-17(万方平台首次上网日期,不代表论文的发表时间)
共8页
33-40