基于动作空间划分的MAXQ自动分层方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.11772/j.issn.1001-9081.2017.05.1357

基于动作空间划分的MAXQ自动分层方法

引用
针对分层强化学习需要人工给出层次结构这一问题,同时考虑到基于状态空间的自动分层方法在环境状态中没有明显子目标时分层效果并不理想的情况,提出一种基于动作空间的自动构造层次结构方法.首先,根据动作影响的状态分量将动作集合划分为多个不相交的子集;然后,分析Agent在不同状态下的可用动作,并识别瓶颈动作;最后,由瓶颈动作与执行次序确定动作子集之间的上下层关系,并构造层次结构.此外,对MAXQ方法中子任务的终止条件进行修改,使所提算法构造的层次结构可以通过MAXQ方法找到最优策略.实验结果表明,所提算法可以自动构造层次结构,而不会受环境变化的干扰.与Q学习、Sarsa算法相比,MAXQ方法根据该结构得到最优策略的时间更短,获得回报更高.验证了所提算法能够有效地自动构造MAXQ层次结构,并使寻找最优策略更加高效.

强化学习、分层强化学习、自动分层方法、马尔可夫决策过程、子任务

37

TP181(自动化基础理论)

the National Natural Science Foundation of China61562009;the Scientific Research Foundation for Talent Introduction of Guizhou University 2012028.国家自然科学基金资助项目61562009;贵州大学引进人才科研项目贵大人基合字2012028号

2017-06-08(万方平台首次上网日期,不代表论文的发表时间)

共6页

1357-1362

相关文献
评论
暂无封面信息
查看本期封面目录

计算机应用

1001-9081

51-1307/TP

37

2017,37(5)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn