多约束复杂环境下UAV航迹规划策略自学习方法

引用

摘要：

在多约束复杂环境下,多数无人飞行器(UAV)航迹规划方法无法从历史经验中获得先验知识,导致对多变的环境适应性较差.提出一种基于深度强化学习的航迹规划策略自学习方法,利用飞行约束条件设计UAV的状态及动作模式,从搜索宽度和深度2个方面降低航迹规划搜索规模,基于航迹优化目标设计奖惩函数,利用由卷积神经网络引导的蒙特卡洛树搜索(MCTS)算法学习得到航迹规划策略.仿真结果表明,该方法自学习得到的航迹规划策略具有泛化能力,相对未迭代训练的网络,该策略仅需17％的NN-MCTS仿真次数就可引导UAV在未知飞行环境中满足约束条件并安全无碰撞地到达目的地.

关键词：深度强化学习、蒙特卡洛树搜索、航迹规划策略、策略自学习、多约束、复杂环境

所属期刊栏目：47

分类号：TP242.6(自动化技术及设备)

资助基金：江苏省自然科学基金BK20170914

在线出版日期：2021-05-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：44-51

英文信息展示

期刊专题