基于动态优先级的奖励优化模型
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.13705/j.issn.1671-6841.2021174

基于动态优先级的奖励优化模型

引用
传统的约束马尔可夫决策过程(constrained Markov decision process,CMDP)模型用来解决多目标决策的困难,但该模型缺乏通用性并且只适用于离散环境.为了解决这一问题,提出一种基于CMDP的改进算法CRODP,与强化学习(reinforcement learning,RL)算法结合,将带约束问题建模为拉格朗日公式,其中包含着深度强化学习的策略参数.然后进一步推导出模型参数的更新公式,并将其作为深度强化学习神经网络的损失函数.模型在学习过程中动态调整约束与主要目标之间的权重以确保最终策略符合给定的约束.在若干机器人平台上与基准的深度强化学习算法进行比较,显示本算法得出的最优策略能够更好地满足相应约束.

强化学习;深度学习;受限马尔可夫模型;动态优先级;机器人环境

54

TP18(自动化基础理论)

国家自然科学基金;江苏省高校自然科学研究重大项目;江苏省高校省级重点实验室苏州大学项目;苏州市应用基础研究计划

2022-01-12(万方平台首次上网日期,不代表论文的发表时间)

共7页

62-68

相关文献
评论
暂无封面信息
查看本期封面目录

郑州大学学报(理学版)

1671-6841

41-1338/N

54

2022,54(1)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn