DOI：10.3969/j.issn.1007-757X.2022.06.050

基于生成对抗网络的强化学习算法的研究

引用

摘要：

为了解决强化学习在训练样本中出现的整体工作效率滞后问题,文章研究提出了一种新方法.该方法将真实经验样本集作为模板,生成理论上可行的虚拟样本,通过智能体agent进行一次训练,智能体agent会将好的虚拟样本并入到真实样本集当中,提高训练样本的质量.该研究利用Open AI Gym作为仿真平台实现小车爬山仿真实验,验证了用生成对抗网络思想实现强化学习算法的有效性,对比Q学习算法,文章提出的"基于生成对抗网络的强化学习算法"(GRL)在追踪数据输出时,其输出的目标函数收敛次数大约少于40次,大大提高学习速度,改善了现有技术中存在网络滞后的学习情况.

关键词：强化学习、生成对抗网络、训练样本、相对熵、函数收敛

所属期刊栏目：38

分类号：TP181(自动化基础理论)

在线出版日期：2022-08-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：174-176,190

英文信息展示

期刊专题