10.3778/j.issn.1002-8331.2208-0422
好奇心蒸馏双Q网络移动机器人路径规划方法
针对移动机器人的路径规划中DQN算法存在过估计、样本利用率低、奖励稀疏等,从而影响机器人获取最优路径的问题,提出基于好奇心蒸馏模块竞争架构的双Q网络(curiosity distillation module dueling deep double Q-network prioritized experience replay,CDM-D3QN-PER)方法.该方法以D3QN为基础,在输入端添加长短时记忆网络(long short term memory,LSTM)处理雷达和相机的信息,降低过估计的影响,获得更有利的环境信息;采用优先经验回放机制(prioritized experience replay,PER)作为采样方法,使样本得到充分利用,提高样本利用率;引入好奇心蒸馏模块(curiosity distillation module,CDM),缓解奖励稀疏的问题.通过仿真实验与DQN、DDQN、D3QN相比,CDM-D3QN-PER算法训练的机器人到达目标点的次数明显增加,为DQN算法的3倍.该算法使奖励值得到提升,加快了收敛速度,能够在复杂的未知环境中获得最优路径.
DQN算法、D3QN算法、好奇心蒸馏模块、长短时记忆网络(LSTM)、最优路径
59
TP39(计算技术、计算机技术)
国家自然科学基金;辽宁省教育厅基金项目
2023-10-16(万方平台首次上网日期,不代表论文的发表时间)
共7页
316-322