10.15982/j.issn.2096-9287.2023.20220049
基于强化学习的深空探测器自主任务规划方法
针对深空探测器自主任务规划多约束的需求,提出了基于动态奖励的强化学习深空探测器任务自主规划模型构建方法,建立了深空探测器智能体的交互环境,构建了策略网络和融合资源、时间以及时序约束的损失函数,并提出动态奖励机制对传统策略梯度学习方法进行了改进.仿真实验结果表明:该方法可实现自主任务规划,规划成功率和规划效率相比静态奖励策略梯度算法有明显的提升,并且能在任意状态下开始规划而无需改变模型结构,提高了对不确定规划任务的适应性.该方法为深空探测器自主任务规划与决策提供了一种新的解决方案.
深空探测、任务规划、策略梯度、强化学习、动态奖励
10
TP18(自动化基础理论)
民用航天预研资助项目
2023-07-18(万方平台首次上网日期,不代表论文的发表时间)
共11页
220-230