结合Bootstrapped探索方法的CCLF算法
深度强化学习因其可用于从高维的图像中提取出有效信息,从而可以自动生成解决各类复杂任务的有效策略,如游戏AI,机器人控制和自动驾驶等.然而,由于任务环境的复杂性以及智能体低下的探索效率,使得即使执行相对简单的任务,智能体仍需要与环境进行大量交互.因此,本文提出一种结合Bootstrapped探索方法的CCLF算法—Bootstrapped CCLF,该算法通过actor网络中多个head来产生更多不同的潜在动作,从而能够访问到更多不同的状态,提高智能体的探索效率,进而加快收敛过程.实验结果表明,该算法在DeepMind Control环境中具有比原算法更好的性能以及稳定性,证明了该算法的有效性.
深度强化学习、策略梯度、探索策略、连续控制、高维度输入
32
TP242.6;TP391.9;TP18
广东省自然科学基金面上项目2023A1515011472
2023-09-25(万方平台首次上网日期,不代表论文的发表时间)
共7页
162-168