好奇心蒸馏双Q网络移动机器人路径规划方法

引用

摘要：

针对移动机器人的路径规划中DQN算法存在过估计、样本利用率低、奖励稀疏等,从而影响机器人获取最优路径的问题,提出基于好奇心蒸馏模块竞争架构的双Q网络(curiosity distillation module dueling deep double Q-network prioritized experience replay,CDM-D3QN-PER)方法.该方法以D3QN为基础,在输入端添加长短时记忆网络(long short term memory,LSTM)处理雷达和相机的信息,降低过估计的影响,获得更有利的环境信息;采用优先经验回放机制(prioritized experience replay,PER)作为采样方法,使样本得到充分利用,提高样本利用率;引入好奇心蒸馏模块(curiosity distillation module,CDM),缓解奖励稀疏的问题.通过仿真实验与DQN、DDQN、D3QN相比,CDM-D3QN-PER算法训练的机器人到达目标点的次数明显增加,为DQN算法的3倍.该算法使奖励值得到提升,加快了收敛速度,能够在复杂的未知环境中获得最优路径.

关键词：DQN算法、D3QN算法、好奇心蒸馏模块、长短时记忆网络(LSTM)、最优路径

所属期刊栏目：59

分类号：TP39(计算技术、计算机技术)

资助基金：国家自然科学基金;辽宁省教育厅基金项目

在线出版日期：2023-10-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：316-322

英文信息展示

期刊专题