10.11959/j.issn.1000-436x.2018133
基于值函数迁移的启发式Sarsa算法
针对Sarsa算法存在的收敛速度较慢的问题,提出一种改进的基于值函数迁移的启发式Sarsa算法(VFT-HSA).该算法将Sarsa算法与值函数迁移方法相结合,引入自模拟度量方法,在相同的状态空间和动作空间下,对新任务与历史任务之间的不同状态进行相似性度量,对满足条件的历史状态进行值函数迁移,提高算法的收敛速度.此外,该算法结合启发式探索方法,引入贝叶斯推理,结合变分推理衡量信息增益,并运用获取的信息增益构建内在奖赏函数作为探索因子,进而加快算法的收敛速度.将所提算法用于经典的Grid World问题,并与Sarsa算法、Q-Learning算法以及收敛性能较好的VFT-Sarsa算法、IGP-Sarsa算法进行比较,实验表明,所提算法具有较快的收敛速度和较好的稳定性.
强化学习、值函数迁移、自模拟度量、变分贝叶斯
39
TP391(计算技术、计算机技术)
国家自然科学基金资助项目61502329, 61772357, 61750110519, 61772355, 61702055, 61672371, 61602334;江苏省自然科学基金资助项目BK20140283;江苏省重点研发计划基金资助项目BE2017663;江苏省高校自然科学基金资助项目13KJB520020;苏州市应用基础研究计划工业部分基金资助项目SYG201422
2018-09-29(万方平台首次上网日期,不代表论文的发表时间)
共11页
37-47