带Q网络过滤的两阶段TD3深度强化学习方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1673-629X.2023.10.016

带Q网络过滤的两阶段TD3深度强化学习方法

引用
常规的深度强化学习模型训练方式从"零"开始,其起始策略为随机初始化,这将导致智能体在训练前期阶段探索效率低、样本学习率低,网络难以收敛,该阶段也被称为冷启动过程.为解决冷启动问题,目前大多数工作使用两阶段深度强化学习训练方式;但是使用这种方式的智能体由模仿学习过渡至深度强化学习阶段后可能会出现遗忘演示动作的情况,表现为性能和回报突然性回落.因此,该文提出一种带Q网络过滤的两阶段TD3 深度强化学习方法.首先,通过收集专家演示数据,使用模仿学习-行为克隆以及TD3 模型Q网络更新公式分别对Actor网络与Critic网络进行预训练工作;进一步地,为避免预训练后的Actor网络在策略梯度更新时误选择估值过高的演示数据集之外动作,从而遗忘演示动作,提出Q网络过滤算法,过滤掉预训练Critic网络中过高估值的演示数据集之外的动作估值,保持演示动作为最高估值动作,有效缓解遗忘现象.在Deep Mind提供的Mujoco机器人仿真平台中进行实验,验证了所提算法的有效性.

两阶段深度强化学习、冷启动问题、模仿学习、预训练网络、TD3

33

TP391.9(计算技术、计算机技术)

广东省应用型科技研发重大专项;广东省基础与应用基础研究基金;广东省基础与应用基础研究基金;广东省企业科技特派员项目

2023-10-30(万方平台首次上网日期,不代表论文的发表时间)

共8页

101-108

相关文献
评论
暂无封面信息
查看本期封面目录

计算机技术与发展

1673-629X

61-1450/TP

33

2023,33(10)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn