10.3969/j.issn.1003-6059.2006.04.002
动态模糊Q学习算法及嵌入式平台的实时实现
介绍一种新的在线自适应的动态模糊Q强化学习算法.系统根据从环境中得到的反馈评估已进行的决策,给予奖励和惩罚,更新系统的Q值,在线自动调整模糊控制的结构与参数.根据系统当前的环境状态以及模糊控制强化学习的Q值来决定当前规则的动作输出,并由模糊推理产生连续输出的动作.扩展贪心搜索策略,确保控制规则的各个输出动作在学习初期都被搜索过,避免陷入局部最优解.将有效跟踪算法和后设学习规则相结合,有效提高系统学习速率.在嵌入式平台中实时控制的实现以及和相关研究结论的对比验证该算法的优越性.
模糊控制、在线自组织、Q强化学习、嵌入式系统、实时控制
19
TP181(自动化基础理论)
国家863计划资助项目2001AA422410
2009-08-19(万方平台首次上网日期,不代表论文的发表时间)
共6页
439-444