一类非线性动态系统基于强化学习的最优控制
提出一类非线性不确定动态系统基于强化学习的最优控制方法。该方法利用欧拉强化学习算法估计对象的未知非线性函数,给出了强化学习中回报函数和策略函数迭代的在线学习规则。通过采用向前欧拉差分迭代公式对学习过程中的时序误差进行离散化,实现了对值函数的估计和控制策略的改进。基于值函数的梯度值和时序误差指标值,给出了该算法的步骤和误差估计定理。小车爬山问题的仿真结果表明了所提出方法的有效性。
非线性动态系统、强化学习、最优控制、值函数、策略函数
TP273(自动化技术及设备)
国家自然科学基金项目60974019,61273118;广东省高等学校高层次人才项目;广东省自然科学基金项目S2012010010570
2013-12-04(万方平台首次上网日期,不代表论文的发表时间)
共5页
1889-1893