DOI：10.3969/j.issn.1002-137X.2010.12.042

基于TD(λ)的自然梯度强化学习算法

引用

摘要：

近年来强化学习中的策略梯度方法以其良好的收敛性能吸引了广泛的关注.研究了平均模型中的自然梯度算法,针对现有算法估计梯度时效率较低的问题,在梯度估计的值函数逼近中采用了TD(λ)方法.TD(λ)中的资格迹使学习经验的传播更加高效,从而能够降低梯度估计的方差,提升算法的收敛速度.车杆平衡系统仿真实验验证了所提算法的有效性.

关键词：策略梯度、自然梯度、TD(λ)、资格迹

所属期刊栏目：37

分类号：TP181(自动化基础理论)

资助基金：国家自然科学基金项目70971067,60905002;江苏省高校自然科学重大基础研究项目08KJA520001;江苏省六大人才高峰项目2007148

在线出版日期：2011-03-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：186-189

英文信息展示

期刊专题