DOI:10.3778/j.issn.1673-9418.1905023PAC最优的RMAX-KNN探索算法下载全文在线阅读引用分享分享到微信朋友圈打开微信,点击底部的“发现”,使用 “扫一扫” 即可将网页分享到我的朋友圈收藏摘要:探索与利用的均衡是强化学习研究的重点之一.探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其自身当前对于环境的认知来做出当前最优决策.目前大多数探索算法只与值函数相关联,不考虑当前智能体对于环境的认知程度,探索效率极低.针对此问题,提出了一种基于状态空间自适应离散化的RMAX-KNN强化学习算法,算法根据当前智能体对于环境状态空间的离散化程度改写值函数形式,然后基于此值函数对环境进行合理的探索,逐步实现对于环境状态空间的自适应离散化划分.RMAX-KNN算法通过将探索与环境状态空间离散化相结合,逐渐加深智能体对于环境的认知程度,进而提高探索效率,同时在理论上证明该算法是一种概率近似正确(PAC)最优探索算法.在Benchmark环境上的仿真实验结果表明,RMAX-KNN算法可以在探索环境的同时实现对于环境状态空间的自适应离散化,并学习到最优策略.关键词:探索与利用的均衡、值函数、状态空间自适应离散化、概率近似正确(PAC)最优探索算法所属期刊栏目:14分类号:TP301.6(计算技术、计算机技术)资助基金:The National Natural Science Foundation of China under Grant Nos. 61673249, U1805263 国家自然科学基金;the Key Research&Development Program of Shanxi Province International Cooperation under Grant No. 201903D421050 山西省国际科技合作重点研发计划项目在线出版日期:2020-03-31(万方平台首次上网日期,不代表论文的发表时间)页数:共14页页码:513-526 英文信息展示收起英文信息