基于马氏决策过程模型的动态系统学习控制:研究前沿与展望
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3724/SP.J.1004.2012.00673

基于马氏决策过程模型的动态系统学习控制:研究前沿与展望

引用
基于马氏决策过程(Markov decision process,MDP)的动态系统学习控制是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向,其主要目标是实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化控制.本文对基于MDP的动态系统学习控制理论、算法与应用的发展前沿进行综述,重点讨论增强学习(Reinforcement learning,RL)与近似动态规划(Approximate dynamic programming,ADP)理论与方法的研究进展,其中包括时域差值学习理论、求解连续状态与行为空间MDP的值函数逼近方法、直接策略搜索与近似策略迭代、自适应评价设计算法等,最后对相关研究领域的应用及发展趋势进行分析和探讨.

学习控制、Markov决策过程、增强学习、近似动态规划、机器学习、自适应控制

38

TP273.22(自动化技术及设备)

国家自然科学基金61075072;90820302;60921061;霍英东青年教师基金优选资助课题114005;教育部新世纪优秀人才支持计划NCET-10-0901

2012-10-29(万方平台首次上网日期,不代表论文的发表时间)

673-687

相关文献
评论
暂无封面信息
查看本期封面目录

自动化学报

0254-4156

11-2109/TP

38

2012,38(5)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn