10.3969/j.issn.1009-3044.2011.19.060
连续状态-连续行动强化学习
标准的强化学习通常用于解决离散状态空间和行动空间序列决策问题,而很多实际系统的状态和行动为连续变量甚至混合变量,连续状态一连续行动强化学习已经成为该领域研究热点.该文将重点讨论一些将强化学习从离散空间推广到连续空间上的技术或方法,主要从离散化和值函数逼近两方面分析了国内外的研究现状,并介绍了一些常用方法的具体实现.最后,对连续状态一连续行动强化学习未来可能发展方向进行展望.
强化学习、连续状态-连续行动、离散化、值函数逼近
7
TP202(自动化技术及设备)
国家技术创新试点省工程项目;全国中小企业科技创新基金;安徽高校省级自然科学研究重点项目资助
2012-01-07(万方平台首次上网日期,不代表论文的发表时间)
共4页
4669-4672