基于改进SARSA算法的直升机CGF路径规划
结合人工势场算法原理,引入奖赏生成机构对传统SARSA学习算法的奖赏生成机制进行改进,改进后的SAR-SA学习算法通过判断执行动作的有效性进一步结合环境信息实时生成动态奖赏,继承了人工势场算法良好的控制性能,能够根据连续预估的代价场信息进行优化搜索,使奖赏累积过程更为平滑.基于直升机CGF突袭雷达阵地模型进行仿真实验,分别对比算法收敛所需迭代次数和完成任务成功率,改进SARSA学习算法收敛时所需迭代次数是传统SARSA学习算法的一半,经过1000次迭代,改进SARSA学习算法完成任务成功率平均比传统SARSA学习算法提升12%.仿真实验表明:改进SARSA算法相对传统SARSA算法有着更优异的性能,算法收敛速度以及完成任务成功率都有明显提升,改进SARSA算法能够为直升机CGF规划安全路径.
路径规划、计算机生成兵力、强化学习、人工势场、动态奖赏
43
TP391(计算技术、计算机技术)
国家自然科学基金61602505
2022-07-01(万方平台首次上网日期,不代表论文的发表时间)
共6页
220-225