一种快速收敛的最大置信上界探索方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.11896/jsjkx.201100194

一种快速收敛的最大置信上界探索方法

引用
深度强化学习(Deep Reinforcement Learning,DRL)方法在大状态空间控制任务上取得了出色效果,探索问题一直是该领域的一个研究热点.现有探索算法存在盲目探索、学习慢等问题.针对以上问题,提出了一种快速收敛的最大置信上界探索(Upper Confidence Bound Exploration with Fast Convergence,FAST-UCB)方法.该方法使用UCB算法探索大状态空间,提高探索效率.为缓解Q值高估的问题、平衡探索与利用关系,加入了Q值截断技巧.之后,为平衡算法偏差与方差,使智能体(agent)快速学习,在网络模型中加入长短时记忆(Long Short Term Memory,LSTM)单元,同时使用一种改进混合蒙特卡洛(Mixed Monte Carlo,MMC)方法计算网络误差.最后,将FAST-UCB应用到深度Q网络(Deep Q Network,DQN),在控制类环境中将其与ε-贪心(ε-greedy)、UCB算法进行对比,以验证其有效性.在雅达利(Atari)2600环境中将其与噪声网络(Noisy-Network)探索、自举(Bootstrapped)探索、异步优势行动者评论家(Asynchronous Advantage Actor Critic,A3C)算法和近端策略优化(Proximal Policy Optimization,PPO)算法进行对比,以验证其泛化性.实验结果表明,FAST-UCB算法在这两类环境中均能取得优秀效果.

探索;最大置信上界;长短时记忆;混合蒙特卡洛;Q值截断

49

TP181(自动化基础理论)

国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;江苏省高等学校自然科学研究重大项目;江苏省高等学校自然科学研究重大项目;吉林大学符号计算与知识工程教育部重点实验室资助项目;吉林大学符号计算与知识工程教育部重点实验室资助项目;苏州市应用基础研究计划;江苏省高校优势学科建设工程资助项目

2022-01-21(万方平台首次上网日期,不代表论文的发表时间)

共8页

298-305

相关文献
评论
暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

49

2022,49(1)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn