支持重规划的战时保障动态调度研究
复杂多变的战场环境要求后装保障能够根据战场环境变化,预见性地做出决策.为此,提出基于强化学习的动态调度方法.为准确描述保障调度问题,提出支持抢占调度、重分配及重部署决策的马尔科夫决策过程(Markov decision process,MDP)模型,模型中综合考量了任务排队、保障优先级以及油料约束等诸多问题的影响;随后设计改进策略迭代算法,训练基于神经网络的保障调度模型;训练后的神经网络模型能够近似计算状态价值函数,从而求解出产生最大期望价值的优化调度策略.最后设计一个分布式战场保障仿真实验,通过与常规调度策略的对比,验证了动态调度算法具有良好的自适应性和自主学习能力,能够根据历史数据和当前态势预判后续变化,并重新规划和配置保障资源的调度方案.
战时保障、重规划、马尔科夫决策过程、动态调度、强化学习
49
TP391;E237;V279
2023-08-09(万方平台首次上网日期,不代表论文的发表时间)
共11页
1519-1529