基于优先级扫描Dyna结构的贝叶斯Q学习方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1000-436x.2013.11.015

基于优先级扫描Dyna结构的贝叶斯Q学习方法

引用
贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法-Dyna-PS-BayesQL。该方法主要分为2部分:在学习部分,对环境的状态迁移函数及奖赏函数建模,并使用贝叶斯Q学习更新动作值函数的参数;在规划部分,基于建立的模型,使用优先级扫描方法和动态规划方法对动作值函数进行规划更新,以提高对历史经验信息的利用,从而提升方法收敛速度及收敛精度。将Dyna-PS-BayesQL应用于链问题和迷宫导航问题,实验结果表明,该方法能较好地平衡探索与利用,且具有较优的收敛速度及收敛精度。

强化学习、马尔科夫决策过程、优先级扫描、Dyna结构、贝叶斯Q学习

TP181(自动化基础理论)

国家自然科学基金资助项目61070223,61103045,61070122,61272005;江苏省自然科学基金资助项目BK2012616;江苏省高校自然科学研究基金资助项目09KJA520002,09KJB520012;吉林大学符号计算与知识工程教育部重点实验室基金资助项目93K172012K04@@@@ The National Natural Science Foundation of China61070223,61103045,61070122,61272005;The Natural Science Foundation of Jiangsu ProvinceBK2012616;The High School Natural Foundation of Jiangsu Province09KJA520002,09KJB520012;The Foundation of Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University93K172012K04

2013-12-19(万方平台首次上网日期,不代表论文的发表时间)

共11页

129-139

相关文献
评论
暂无封面信息
查看本期封面目录

通信学报

1000-436X

11-2102/TN

2013,(11)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn