一种快速收敛的最大置信上界探索方法
深度强化学习(Deep Reinforcement Learning,DRL)方法在大状态空间控制任务上取得了出色效果,探索问题一直是该领域的一个研究热点.现有探索算法存在盲目探索、学习慢等问题.针对以上问题,提出了一种快速收敛的最大置信上界探索(Upper Confidence Bound Exploration with Fast Convergence,FAST-UCB)方法.该方法使用UCB算法探索大状态空间,提高探索效率.为缓解Q值高估的问题、平衡探索与利用关系,加入了Q值截断技巧.之后,为平衡算法偏差与方差,使智能体(agent)快速学习,在网络模型中加入长短时记忆(Long Short Term Memory,LSTM)单元,同时使用一种改进混合蒙特卡洛(Mixed Monte Carlo,MMC)方法计算网络误差.最后,将FAST-UCB应用到深度Q网络(Deep Q Network,DQN),在控制类环境中将其与ε-贪心(ε-greedy)、UCB算法进行对比,以验证其有效性.在雅达利(Atari)2600环境中将其与噪声网络(Noisy-Network)探索、自举(Bootstrapped)探索、异步优势行动者评论家(Asynchronous Advantage Actor Critic,A3C)算法和近端策略优化(Proximal Policy Optimization,PPO)算法进行对比,以验证其泛化性.实验结果表明,FAST-UCB算法在这两类环境中均能取得优秀效果.
探索;最大置信上界;长短时记忆;混合蒙特卡洛;Q值截断
49
TP181(自动化基础理论)
国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;江苏省高等学校自然科学研究重大项目;江苏省高等学校自然科学研究重大项目;吉林大学符号计算与知识工程教育部重点实验室资助项目;吉林大学符号计算与知识工程教育部重点实验室资助项目;苏州市应用基础研究计划;江苏省高校优势学科建设工程资助项目
2022-01-21(万方平台首次上网日期,不代表论文的发表时间)
共8页
298-305