10.3969/j.issn.1006-9348.2006.04.081
基于强化学习的二级倒立摆控制
在模型未知和没有先验经验的条件下,采用一种改进的强化学习算法实现二级倒立摆系统的平衡控制.该学习算法不需要预测和辨识模型,能通过网络自身的联想和记忆,在线寻求最优策略.该学习算法采用基于神经网络的值函数逼近,并用直接梯度和适合度轨迹修正权值,有效实现对连续状态和行为空间任务的控制.计算机仿真证明了该强化学习算法在较短的时间内即可成功地学会控制直线二级倒立摆系统.
强化学习、倒立摆、适合度轨迹
23
TP391.9(计算技术、计算机技术)
中国科学院资助项目60375017
2006-06-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
305-308