DOI：10.3969/j.issn.1006-9348.2009.07.039

分阶Dyna强化学习算法

引用

摘要：

针对现有Dyna强化学习体系结构下,"规划"和"学习"在计算资源分配上的不合理问题,提出了一种分阶Dyna体系结构,随着经验知识的不断积累,将学习过程划分为探索阶段、变比重学习阶段和优化阶段,分别进行"规划"和"学习"的协调控制,大大减少了计算资源的浪费.结合传统的Q-学习算法,设计了分阶Dyna-Q强化学习算法,以适应动态不确定环境下的任务.在一个标准强化学习问题中,验证了所设计的分阶Dyna强化学习算法比基本Dyna强化学习算法具有更好的学习性能.

关键词：强化学习、强化学习体系结构、规划

所属期刊栏目：26

分类号：TP181(自动化基础理论)

资助基金：国家自然科学基金项目60474019;博士点基金项目20070288022

在线出版日期：2009-10-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：154-158

英文信息展示

期刊专题