一种基于自生成样本学习的奖赏塑形方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3724/SP.J.1001.2013.04471

一种基于自生成样本学习的奖赏塑形方法

引用
强化学习通过从以往的决策反馈中学习,使 Agent 做出正确的短期决策,以最大化其获得的累积奖赏值。以往研究发现,奖赏塑形方法通过提供简单、易学的奖赏替代函数(即奖赏塑性函数)来替换真实的环境奖赏,能够有效地提高强化学习性能。然而奖赏塑形函数通常是在领域知识或者最优策略示例的基础上建立的,均需要专家参与,代价高昂。研究是否可以在强化学习过程中自动地学习有效的奖赏塑形函数。通常,强化学习算法在学习过程中会采集大量样本。这些样本虽然有很多是失败的尝试,但对构造奖赏塑形函数可能提供有用信息。提出了针对奖赏塑形的新型最优策略不变条件,并在此基础上提出了RFPotential方法,从自生成样本中学习奖赏塑形。在多个强化学习算法和问题上进行了实验,其结果表明,该方法可以加速强化学习过程。

奖赏塑形、自生成样本、策略不变、强化学习

TP181(自动化基础理论)

江苏省自然科学基金BK2012303;百度开放课题181315P00651

2014-01-07(万方平台首次上网日期,不代表论文的发表时间)

共9页

2667-2675

相关文献
评论
暂无封面信息
查看本期封面目录

软件学报

1000-9825

11-2560/TP

2013,(11)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn