一种基于自生成样本学习的奖赏塑形方法
强化学习通过从以往的决策反馈中学习,使 Agent 做出正确的短期决策,以最大化其获得的累积奖赏值。以往研究发现,奖赏塑形方法通过提供简单、易学的奖赏替代函数(即奖赏塑性函数)来替换真实的环境奖赏,能够有效地提高强化学习性能。然而奖赏塑形函数通常是在领域知识或者最优策略示例的基础上建立的,均需要专家参与,代价高昂。研究是否可以在强化学习过程中自动地学习有效的奖赏塑形函数。通常,强化学习算法在学习过程中会采集大量样本。这些样本虽然有很多是失败的尝试,但对构造奖赏塑形函数可能提供有用信息。提出了针对奖赏塑形的新型最优策略不变条件,并在此基础上提出了RFPotential方法,从自生成样本中学习奖赏塑形。在多个强化学习算法和问题上进行了实验,其结果表明,该方法可以加速强化学习过程。
奖赏塑形、自生成样本、策略不变、强化学习
TP181(自动化基础理论)
江苏省自然科学基金BK2012303;百度开放课题181315P00651
2014-01-07(万方平台首次上网日期,不代表论文的发表时间)
共9页
2667-2675