10.3778/j.issn.1002-8331.1808-0413
基于最小二乘策略迭代的无人机航迹规划方法
针对传统强化学习方法因对状态空间进行离散化而无法保证无人机在复杂应用场景中航迹精度的问题,使用最小二乘策略迭代(Least-Squares Policy Iteration,LSPI)算法开展连续状态航迹规划问题研究.该算法采用带参线性函数逼近器近似表示动作值函数,无需进行空间离散化,提高了航迹精度,并基于样本数据离线计算策略,直接对策略进行评价和改进.与Q学习算法的对比仿真实验结果表明LSPI算法规划出的三维航迹更为平滑,有利于飞机实际飞行.
无人机、航迹规划、强化学习、最小二乘法、Q学习、连续状态空间
56
TP293(自动化技术及设备)
英国皇家工程院牛顿基金;北京联合大学研究生资助项目
2020-01-17(万方平台首次上网日期,不代表论文的发表时间)
共5页
191-195