10.3969/j.issn.1003-6059.2007.02.016
基于探索密度的Option子目标发现算法
提出状态探索密度的概念,通过检测状态对智能体探索环境能力的影响来发现学习的子目标并构建对应的Option.用该算法创建Option的再励学习算法能有效提高学习速度.算法具有和任务无关、不需要先验知识等优点,构造出的Option在同一环境下不同任务间可以直接共享.
递阶再励学习、Option、探索密度(ED)
20
TP181(自动化基础理论)
2009-08-19(万方平台首次上网日期,不代表论文的发表时间)
共5页
236-240