DOI：10.3969/j.issn.1000-436x.2013.11.015

基于优先级扫描Dyna结构的贝叶斯Q学习方法

引用

摘要：

贝叶斯Q学习方法使用概率分布来描述Q值的不确定性，并结合Q值分布来选择动作，以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题，提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法-Dyna-PS-BayesQL。该方法主要分为2部分：在学习部分，对环境的状态迁移函数及奖赏函数建模，并使用贝叶斯Q学习更新动作值函数的参数；在规划部分，基于建立的模型，使用优先级扫描方法和动态规划方法对动作值函数进行规划更新，以提高对历史经验信息的利用，从而提升方法收敛速度及收敛精度。将Dyna-PS-BayesQL应用于链问题和迷宫导航问题，实验结果表明，该方法能较好地平衡探索与利用，且具有较优的收敛速度及收敛精度。

关键词：强化学习、马尔科夫决策过程、优先级扫描、Dyna结构、贝叶斯Q学习

分类号：TP181(自动化基础理论)

资助基金：国家自然科学基金资助项目61070223,61103045,61070122,61272005；江苏省自然科学基金资助项目BK2012616；江苏省高校自然科学研究基金资助项目09KJA520002,09KJB520012；吉林大学符号计算与知识工程教育部重点实验室基金资助项目93K172012K04@@@@ The National Natural Science Foundation of China61070223,61103045,61070122,61272005;The Natural Science Foundation of Jiangsu ProvinceBK2012616;The High School Natural Foundation of Jiangsu Province09KJA520002,09KJB520012;The Foundation of Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University93K172012K04

在线出版日期：2013-12-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：129-139

英文信息展示

期刊专题