结合Bootstrapped探索方法的CCLF算法

引用

摘要：

深度强化学习因其可用于从高维的图像中提取出有效信息,从而可以自动生成解决各类复杂任务的有效策略,如游戏AI,机器人控制和自动驾驶等.然而,由于任务环境的复杂性以及智能体低下的探索效率,使得即使执行相对简单的任务,智能体仍需要与环境进行大量交互.因此,本文提出一种结合Bootstrapped探索方法的CCLF算法—Bootstrapped CCLF,该算法通过actor网络中多个head来产生更多不同的潜在动作,从而能够访问到更多不同的状态,提高智能体的探索效率,进而加快收敛过程.实验结果表明,该算法在DeepMind Control环境中具有比原算法更好的性能以及稳定性,证明了该算法的有效性.

关键词：深度强化学习、策略梯度、探索策略、连续控制、高维度输入

所属期刊栏目：32

分类号：TP242.6;TP391.9;TP18

资助基金：广东省自然科学基金面上项目2023A1515011472

在线出版日期：2023-09-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：162-168

英文信息展示

期刊专题