DOI：10.3321/j.issn:1000-0887.2007.03.013

风险敏感度激励学习的广义平均算法

引用

摘要：

提出了一种新的算法.这个算法通过潜在地牺牲控制策略的最优性来获取其鲁棒性.这是因为,如果在理论模型与实际的物理系统之间存在不匹配,或者实际系统是非静态的,或者控制动作的可使用性随时间的变化而变化时,那么鲁棒性就可能成为一个十分重要的问题.主要工作是给出了一组逼近算法和它们的收敛结果.利用广义平均算子来替代最优算子max(或min),对激励学习中的一类最重要的算法--动态规划算法--进行了研究,并讨论了它们的收敛性,目的就是为了提高激励学习算法的鲁棒性.同时使用了更具一般性的风险敏感度性能评价体系,发现基于动态规划的学习算法中的一般结论在这种体系之下并不完全成立.

关键词：激励学习、风险敏感度、广义平均、算法、收敛性

所属期刊栏目：28

分类号：O23;TP182(控制论、信息论（数学理论）)

资助基金：国家自然科学基金10471088;60572126

在线出版日期：2007-04-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：369-378

英文信息展示

期刊专题