10.3969/j.issn.1673-9140.2003.01.012
基于Q-学习的非线性控制
给出了一种新的激励学习(RL)方法,它能够有效地解决一个状态与动作空间为连续的非线性控制问题.在实际的应用中,离散的RL方法能把许多非线性控制问题分解成几个局部线性控制作业.提供了一种由简单的线性控制器和Q-学习构成的层次性RL算法.连续状态-动作空间被形象地分成为一些格子,并且每个格子都有它自己的局部线性控制器.状态空间的隔离是处理维数问题的一种相当简单的方法,但是经常会引起非Markov效果,而局部线性控制器能弥补这个缺陷.
激励学习(RL)、马尔科夫决策过程(MDP):Q-学习、非线性控制、局部线性控制器
18
TP181(自动化基础理论)
国家自然科学基金60075019
2006-07-31(万方平台首次上网日期,不代表论文的发表时间)
共4页
35-38