DOI：10.3901/JME.2022.11.072

具有光滑-直行功能的Q-Learning路径优化算法

引用

摘要：

移动机器人作业路径的合理规划是其安全高效完成作业任务的关键.现有的路径规划算法大部分是基于已知全局环境信息后,再进行路径规划.因此,针对移动机器人在静态未知环境中的路径规划问题,提出了一种具有光滑-直行功能的Q-Learning(SSQL)算法并将其用于移动机器人的路径规划中.该算法在提高Agent学习效率的同时可确保路径为光滑连续的最短曲线,以改善其行走动力学性能及效率.SSQL算法包括三个主要新方案:首先,基于Q-Learning算法对未知环境进行预探索,在Agent首次找到目标点后,依据预探索信息,构建虚拟矩形环境,并在其内部增加引导Q值,以提高Agent学习效率.同时,将Agent找到的路径进行跳点优化,以达到消除冗余路径、减少路径转折点和缩短路径长度的目的.进而,在路径转折位置采用贝塞尔曲线进行路径平滑处理,并使最终路径能满足移动机器人动力学约束.将该算法与Q-Learning算法在不同环境下进行对比试验,研究结果表明,SSQL路径规划算法对大型未知环境的探索表现出优异的优化效果,具有收敛速度快,规划的路径短、转折点少等优点,且能确保移动机器人沿规划路径作业的平滑性和安全性.

关键词：移动机器人、Q-Learning、引导Q值、跳点优化、贝塞尔曲线、路径平滑

所属期刊栏目：58

分类号：TP242(自动化技术及设备)

资助基金：国家自然科学基金;河北省重点研发计划;天津市科技计划项目

在线出版日期：2022-08-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共16页

页码：72-87

英文信息展示

期刊专题