DOI：10.3969/j.issn.1008-0570.2009.24.055

基于支持样本的快速增强学习算法

引用

摘要：

针对确定性马尔克夫决策过程,本文提出了一种基于支持样本的快速增强学习算法.文章首先把学习问题形式化为一个确定性的马尔可夫决策过程.并对问题空间中每个状态的总回报值进行估计,根据总回报估计值与累积总回报估计值的大小关系,提出了支持样本的概念,即在大量的训练样本中,提取出值得我们信赖的那些样本;然后建立状态空间与动作空间之间的对应关系,用得到的支持样本进行最小二乘逼近,得到了快速有效的策略函数;最后,通过仿真实验,证明了方法的有效性.

关键词：增强学习、马尔可夫决策过程、支持样本

所属期刊栏目：25

分类号：TP18(自动化基础理论)

在线出版日期：2009-09-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：136-138

英文信息展示

期刊专题