10.3969/j.issn.1000-565X.2012.06.012
采用经验复用的高效强化学习控制方法
使用定长情景进行学习的eNAC(episodic Natural Actor-Critic)算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC算法的基础上引入了定长情景复用机制,在自然策略梯度估计过程中,复用部分过去采样的定长情景以更有效地利用经验信息;在使用复用的定长情景时,按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性.倒立摆稳定控制问题的仿真结果表明,与eNAC算法相比,ER-eNAC算法显著减少了学习过程中需要采样的定长情景的条数,提高了学习效率.
强化学习、自然策略梯度、经验复用、倒立摆控制
40
TP273.22(自动化技术及设备)
国家自然科学基金青年科学基金资助项目61004066;浙江省科技计划项目2011C23106
2012-10-29(万方平台首次上网日期,不代表论文的发表时间)
共6页
70-75