10.3969/j.issn.1673-4785.2007.01.002
增强学习中的直接策略搜索方法综述
对增强学习中各种策略搜索算法进行了简单介绍,建立了策略梯度方法的理论框架,并且根据这个理论框架的指导,对一些现有的策略梯度算法进行了推广,讨论了近年来出现的提高策略梯度算法收敛速度的几种方法,对于非策略梯度搜索算法的最新进展进行了介绍,对进一步研究工作的方向进行了展望.
增强学习、策略搜索、策略梯度
2
TP242(自动化技术及设备)
国家自然科学基金60234030;60303012
2007-04-05(万方平台首次上网日期,不代表论文的发表时间)
共9页
16-24