基于最小二乘策略迭代的无人机航迹规划方法

引用

摘要：

针对传统强化学习方法因对状态空间进行离散化而无法保证无人机在复杂应用场景中航迹精度的问题,使用最小二乘策略迭代(Least-Squares Policy Iteration,LSPI)算法开展连续状态航迹规划问题研究.该算法采用带参线性函数逼近器近似表示动作值函数,无需进行空间离散化,提高了航迹精度,并基于样本数据离线计算策略,直接对策略进行评价和改进.与Q学习算法的对比仿真实验结果表明LSPI算法规划出的三维航迹更为平滑,有利于飞机实际飞行.

关键词：无人机、航迹规划、强化学习、最小二乘法、Q学习、连续状态空间

所属期刊栏目：56

分类号：TP293(自动化技术及设备)

资助基金：英国皇家工程院牛顿基金;北京联合大学研究生资助项目

在线出版日期：2020-01-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：191-195

英文信息展示

期刊专题