基于连续时间半马尔可夫决策过程的犗狆狋犻狅狀算法

引用

摘要：

针对大规模或复杂的随机动态规划系统，可利用其分层结构特点或引入分层控制方式，借助分层强化学习（HierarchicalReinforcementLearning，HRL）来解决其“维数灾”和“建模难”问题．HRL归属于样本数据驱动优化方法，通过空间/时间抽象机制，可有效加速策略学习过程．其中，Option方法可将系统目标任务分解成多个子目标任务来学习和执行，层次化结构清晰，是具有代表性的HRL方法之一．传统的Option算法主要是建立在离散时间半马尔可夫决策过程（Semi-MarkovDecisionProcesses，SMDP）和折扣性能准则基础上，无法直接用于解决连续时间无穷任务问题．因此本文在连续时间SMDP框架及其性能势理论下，结合现有的Option算法思想，运用连续时间SMDP的相关学习公式，建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型，并给出相应的在线学习优化算法．最后通过机器人垃圾收集系统为仿真实例，说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性，同时也说明其与连续时间模拟退火Q学习相比，具有节约存储空间、优化精度高和优化速度快的优势．

关键词：连续时间半Markov决策过程、分层强化学习、Q学习

分类号：TP18(自动化基础理论)

资助基金：国家自然科学基金61174188，71231004，61374158;国家国际科技合作项目2011FA10440;教育部新世纪优秀人才计划项目NCET-11-0626;高等学校博士学科点专项科研基金博导类20130111110007

在线出版日期：2014-09-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：2027-2037

期刊专题