10.3778/j.issn.1002-8331.2008.19.011
基于ACCA的Option自动生成算法
提出了一种新的分层强化学习(HRL)Option自动生成算法,以Agent在学习初始阶段探测到的状态空间为输入,并采用改进的蚁群聚类算法(ACCA)对其进行聚类,在聚类后的各状态子集上通过经验回放学习产生内部策略集,从而生成Option,仿真实验验证了该算法是有效的.
分层强化学习、Option、蚁群聚类算法、经验回放
44
TP181(自动化基础理论)
2008-09-01(万方平台首次上网日期,不代表论文的发表时间)
共3页
39-40,49