DOI：10.11992/tis.202003031

强化学习稀疏奖励算法研究——理论与实验

引用

摘要：

近年来,强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功,但是大量实际问题中奖励信号十分稀疏,导致智能体难以从与环境的交互中学习到最优的策略,这一问题被称为稀疏奖励问题.稀疏奖励问题的研究能够促进强化学习实际应用与落地,在强化学习理论研究中具有重要意义.本文调研了稀疏奖励问题的研究现状,以外部引导信息为线索,分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等方法.本文在稀疏奖励环境Fetch Reach上实现了以上6类方法的代表性算法进行实验验证和比较分析.使用外部引导信息的算法平均表现好于无外部引导信息的算法,但是后者对数据的依赖性更低,两类方法均具有重要的研究意义.最后,本文对稀疏奖励算法研究进行了总结与展望.

关键词：强化学习、深度强化学习、机器学习、稀疏奖励、神经网络、人工智能、深度学习

所属期刊栏目：15

分类号：TP181(自动化基础理论)

资助基金：国家自然科学基金项目41876098

在线出版日期：2021-01-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：888-899

英文信息展示

期刊专题