一种最大置信上界经验采样的深度Q网络方法

引用

摘要：

由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度Q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,而忽略一些高信息量的样本,结果不但增加了训练时间,而且训练效果也不理想.针对此问题,在传统深度Q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高未被选择的样本、更有信息价值的样本以及表现优秀的样本的被选概率,保证了所采样本的多样性,使智能体能更有效地选择动作.最后,在Atari 2600的多个游戏环境中进行仿真实验,验证了算法的有效性.

关键词：强化学习、深度强化学习、最大置信上界、经验回放、深度Q网络

所属期刊栏目：55

分类号：TP18(自动化基础理论)

资助基金：国家自然科学基金项目61303108,61373094,61772355;江苏省高校自然科学研究项目重大项目17KJA520004;符号计算与知识工程教育部重点实验室吉林大学资助项目93K172014K04;苏州市应用基础研究计划工业部分SYG201422;高校省级重点实验室苏州大学项目KJS1524;中国国家留学基金项目201606920013

在线出版日期：2018-09-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：1694-1705

英文信息展示

期刊专题