强化学习稀疏奖励算法研究——理论与实验
近年来,强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功,但是大量实际问题中奖励信号十分稀疏,导致智能体难以从与环境的交互中学习到最优的策略,这一问题被称为稀疏奖励问题.稀疏奖励问题的研究能够促进强化学习实际应用与落地,在强化学习理论研究中具有重要意义.本文调研了稀疏奖励问题的研究现状,以外部引导信息为线索,分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等方法.本文在稀疏奖励环境Fetch Reach上实现了以上6类方法的代表性算法进行实验验证和比较分析.使用外部引导信息的算法平均表现好于无外部引导信息的算法,但是后者对数据的依赖性更低,两类方法均具有重要的研究意义.最后,本文对稀疏奖励算法研究进行了总结与展望.
强化学习、深度强化学习、机器学习、稀疏奖励、神经网络、人工智能、深度学习
15
TP181(自动化基础理论)
国家自然科学基金项目41876098
2021-01-26(万方平台首次上网日期,不代表论文的发表时间)
共12页
888-899