基于连续时间半马尔可夫决策过程的犗狆狋犻狅狀算法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3724/SP.J.1016.2014.02027

基于连续时间半马尔可夫决策过程的犗狆狋犻狅狀算法

引用
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(HierarchicalReinforcementLearning,HRL)来解决其“维数灾”和“建模难”问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-MarkovDecisionProcesses,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势.

连续时间半Markov决策过程、分层强化学习、Q学习

TP18(自动化基础理论)

国家自然科学基金61174188,71231004,61374158;国家国际科技合作项目2011FA10440;教育部新世纪优秀人才计划项目NCET-11-0626;高等学校博士学科点专项科研基金博导类20130111110007

2014-09-26(万方平台首次上网日期,不代表论文的发表时间)

共11页

2027-2037

相关文献
评论
暂无封面信息
查看本期封面目录

计算机学报

0254-4164

11-1826/TP

2014,(9)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn