10.3969/j.issn.1008-0570.2009.24.055
基于支持样本的快速增强学习算法
针对确定性马尔克夫决策过程,本文提出了一种基于支持样本的快速增强学习算法.文章首先把学习问题形式化为一个确定性的马尔可夫决策过程.并对问题空间中每个状态的总回报值进行估计,根据总回报估计值与累积总回报估计值的大小关系,提出了支持样本的概念,即在大量的训练样本中,提取出值得我们信赖的那些样本;然后建立状态空间与动作空间之间的对应关系,用得到的支持样本进行最小二乘逼近,得到了快速有效的策略函数;最后,通过仿真实验,证明了方法的有效性.
增强学习、马尔可夫决策过程、支持样本
25
TP18(自动化基础理论)
2009-09-28(万方平台首次上网日期,不代表论文的发表时间)
共3页
136-138