基于线性平均的强化学习函数估计算法

引用

摘要：

提出了一种基于最小线性平均的强化学习算法,用于解决连续空间下强化学习函数估计的非收敛性问题.该算法基于梯度下降法,根据压缩映射原理,通过采用线性平均法作为值函数估计的性能衡量标准,把值函数估计的迭代过程转化为一个收敛于不动点的过程.该算法利用强化学>--j算法的标准问题一Mountain Car问题进行了验证,仿真结果验证了算法是有效的和可行的,并且可以快速收敛到稳定值.

关键词：自动控制技术、强化学习、线性平均、函数估计、梯度下降法

所属期刊栏目：38

分类号：TP13(自动化基础理论)

资助基金："863"国家高技术研究发展计划项目2003AA404140

在线出版日期：2009-01-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：1407-1411

英文信息展示

期刊专题