DOI：10.3969/j.issn.1673-4785.2009.03.003

回报函数学习的学徒学习综述

引用

摘要：

通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学习方法.分别在回报函数为线性和非线性条件下讨论,并且在线性条件下比较了2类方法--基于逆向增强学习(IRL)和最大化边际规划(MMP)的学徒学习.前者有较为快速的近似算法,但对于演示的最优性作了较强的假设;后者形式上更易于扩展,但计算量大.最后,提出了该领域现在还存在的问题和未来的研究方向,如把学徒学习应用于POMDP环境下,用PBVI等近似算法或者通过PCA等降维方法对数据进行学习特征的提取,从而减少高维度带来的大计算量问题.

关键词：学徒学习、回报函数、逆向增强学习、最大化边际规划

所属期刊栏目：4

分类号：TP181(自动化基础理论)

资助基金：国家自然科学基金资助项目90820306;浙江省科技厅重大资助项目006c13096

在线出版日期：2009-08-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：208-212

英文信息展示

期刊专题