DOI：10.3873/j.issn.1000-1328.2023.05.006

强化学习控制方法及在类火箭飞行器上的应用

引用

摘要：

针对类火箭飞行器进行了基于深度确定性策略梯度(DDPG)算法的姿态控制研究,完成了算法设计和智能体训练,并进行了仿真与飞行试验.基于飞行器六自由度模型搭建飞行模拟器,针对悬停模式,以多拍姿态角跟踪误差以及姿态角速度作为智能体可观测的状态,控制指令作为智能体动作,设计了含有跟踪误差、控制指令变化量以及一次性奖励的回报函数,在模拟器中训练智能体并完成了从仿真环境到真实系统的迁移.研究中未按传统设计流程对飞行器模型进行通道分解等简化,轻量化神经网络形式的智能体仅通过与模拟器交互的形式学习姿态控制策略,智能体在仿真和飞行试验中都展现出了良好性能.

关键词：强化学习(RL)、深度确定性策略梯度算法(DDPG)、姿态控制、飞行试验

所属期刊栏目：44

分类号：V249.1;V448.2(航空仪表、航空设备、飞行控制与导航)

资助基金：国家自然科学基金U21B2028

在线出版日期：2023-06-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：708-718

英文信息展示

期刊专题