10.3969/j.issn.1673-629X.2022.04.001
基于探索-利用权衡优化的Q学习路径规划
针对移动智能体在未知环境下的路径规划问题,提出了基于探索-利用权衡优化的Q学习路径规划.对强化学习方法中固有的探索-利用权衡问题,提出了探索贪婪系数ε值随学习幕数平滑衰减的εDBE(ε-decreasing based episodes)方法和根据Q表中的状态动作值判断到达状态的陌生/熟悉程度、做出探索或利用选择的AεBS(adaptiveεbased state)方法,这一改进确定了触发探索和触发利用的情况,避免探索过度和利用过度,能加快找到最优路径.在未知环境下对基于探索-利用权衡优化的Q学习路径规划与经典的Q学习路径规划进行仿真实验比较,结果表明该方法的智能体在未知障碍环境情况下具有快速学习适应的特性,最优路径步数收敛速度更快,能更高效实现路径规划,验证了该方法的可行性和高效性.
强化学习、Q学习、探索-利用、路径规划、未知环境
32
TP391(计算技术、计算机技术)
国家自然科学基金61573154
2022-05-11(万方平台首次上网日期,不代表论文的发表时间)
共7页
1-7