一种最大置信上界经验采样的深度Q网络方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.7544/issn1000-1239.2018.20180148

一种最大置信上界经验采样的深度Q网络方法

引用
由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度Q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,而忽略一些高信息量的样本,结果不但增加了训练时间,而且训练效果也不理想.针对此问题,在传统深度Q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高未被选择的样本、更有信息价值的样本以及表现优秀的样本的被选概率,保证了所采样本的多样性,使智能体能更有效地选择动作.最后,在Atari 2600的多个游戏环境中进行仿真实验,验证了算法的有效性.

强化学习、深度强化学习、最大置信上界、经验回放、深度Q网络

55

TP18(自动化基础理论)

国家自然科学基金项目61303108,61373094,61772355;江苏省高校自然科学研究项目重大项目17KJA520004;符号计算与知识工程教育部重点实验室吉林大学资助项目93K172014K04;苏州市应用基础研究计划工业部分SYG201422;高校省级重点实验室苏州大学项目KJS1524;中国国家留学基金项目201606920013

2018-09-07(万方平台首次上网日期,不代表论文的发表时间)

共12页

1694-1705

相关文献
评论
暂无封面信息
查看本期封面目录

计算机研究与发展

1000-1239

11-1777/TP

55

2018,55(8)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn