10.3969/j.issn.1000-1220.2020.08.015
基于延迟策略的最大熵优势演员评论家算法
在强化学习中智能体通过与环境交互获得奖励值,更高的奖励值需要更优的策略,但在高维复杂的环境中,传统的强化学习算法交互产生的样本复杂度较高,并且会产生过估计问题,导致计算最优策略的过程产生较大的波动,算法难以收敛.针对上述问题,提出了一种基于延迟策略的最大熵优势演员评论家强化学习算法(DAAC).DAAC算法基于传统的策略梯度演员评论家算法框架,使用了两个评论家网络,分别计算状态值函数和动作的优势估计值函数并最大化目标策略的预期熵,在评论家网络中使用延迟策略更新的技巧.该算法在基于Linux平台的OpenAI Gym的物理仿真模拟器MuJoCo进行了实验,并与传统的强化学习算法DQN,TRPO,DDPG在不同的机器人模拟器中作对比,实验结果表明,DAAC算法有效地降低了计算过程的波动性,使策略更快收敛到最优解并获得了更高的奖励值.
强化学习、策略梯度、延迟更新、最大熵、演员评论家网络
41
TP181(自动化基础理论)
国家自然科学基金项目;中央高校基本科研业务费"十三五"重点科研项目;中央高校基本科研业务费项目
2020-09-15(万方平台首次上网日期,不代表论文的发表时间)
共9页
1656-1664