10.3969/j.issn.1673-4785.2006.01.014
基于多智能体的Option自动生成算法
目前分层强化学习中的任务自动分层都是采用基于单智能体的串行学习算法,为解决串行算法学习速度较慢的问题,以Sutton的Option分层强化学习方法为基础框架,提出了一种基于多智能体的Option自动生成算法,该算法由多智能体合作对状态空间进行并行探测并集中应用aiNet实现免疫聚类产生状态子空间,然后并行学习生成各子空间上的内部策略,最终生成Option.以二维有障碍栅格空间内2点间最短路径规划为任务背景给出了算法并进行了仿真实验和分析.结果表明,基于多智能体的Option自动生成算法速度明显快于基于单智能体的算法.
分层强化学习、自动分层、多智能体系统、Option、aiNet
1
TP18(自动化基础理论)
哈尔滨工程大学校科研和教改项目HEUFT05021,HEUFT05068
2006-07-31(万方平台首次上网日期,不代表论文的发表时间)
共4页
84-87