10.3969/j.issn.1673-4785.2009.03.003
回报函数学习的学徒学习综述
通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学习方法.分别在回报函数为线性和非线性条件下讨论,并且在线性条件下比较了2类方法--基于逆向增强学习(IRL)和最大化边际规划(MMP)的学徒学习.前者有较为快速的近似算法,但对于演示的最优性作了较强的假设;后者形式上更易于扩展,但计算量大.最后,提出了该领域现在还存在的问题和未来的研究方向,如把学徒学习应用于POMDP环境下,用PBVI等近似算法或者通过PCA等降维方法对数据进行学习特征的提取,从而减少高维度带来的大计算量问题.
学徒学习、回报函数、逆向增强学习、最大化边际规划
4
TP181(自动化基础理论)
国家自然科学基金资助项目90820306;浙江省科技厅重大资助项目006c13096
2009-08-19(万方平台首次上网日期,不代表论文的发表时间)
共5页
208-212