10.11772/j.issn.1001-9081.2017.05.1357
基于动作空间划分的MAXQ自动分层方法
针对分层强化学习需要人工给出层次结构这一问题,同时考虑到基于状态空间的自动分层方法在环境状态中没有明显子目标时分层效果并不理想的情况,提出一种基于动作空间的自动构造层次结构方法.首先,根据动作影响的状态分量将动作集合划分为多个不相交的子集;然后,分析Agent在不同状态下的可用动作,并识别瓶颈动作;最后,由瓶颈动作与执行次序确定动作子集之间的上下层关系,并构造层次结构.此外,对MAXQ方法中子任务的终止条件进行修改,使所提算法构造的层次结构可以通过MAXQ方法找到最优策略.实验结果表明,所提算法可以自动构造层次结构,而不会受环境变化的干扰.与Q学习、Sarsa算法相比,MAXQ方法根据该结构得到最优策略的时间更短,获得回报更高.验证了所提算法能够有效地自动构造MAXQ层次结构,并使寻找最优策略更加高效.
强化学习、分层强化学习、自动分层方法、马尔可夫决策过程、子任务
37
TP181(自动化基础理论)
the National Natural Science Foundation of China61562009;the Scientific Research Foundation for Talent Introduction of Guizhou University 2012028.国家自然科学基金资助项目61562009;贵州大学引进人才科研项目贵大人基合字2012028号
2017-06-08(万方平台首次上网日期,不代表论文的发表时间)
共6页
1357-1362