基于Q学习算法和BP神经网络的倒立摆控制
Q学习是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.将Q学习算法和BP神经网络有效结合,实现了状态未离散化的倒立摆的无模型学习控制.仿真表明:该方法不仅能成功解决确定和随机倒立摆模型的平衡控制,而且和Anderson[2]的AHC (Adaptive Heuristic Critic)等方法相比,具有更好的学习效果.
Q学习、BP网络、学习控制、倒立摆系统、高斯噪声
24
TP2(自动化技术及设备)
中国科学院资助项目
2004-03-19(万方平台首次上网日期,不代表论文的发表时间)
共5页
662-666