10.3969/j.issn.1007-757X.2022.06.050
基于生成对抗网络的强化学习算法的研究
为了解决强化学习在训练样本中出现的整体工作效率滞后问题,文章研究提出了一种新方法.该方法将真实经验样本集作为模板,生成理论上可行的虚拟样本,通过智能体agent进行一次训练,智能体agent会将好的虚拟样本并入到真实样本集当中,提高训练样本的质量.该研究利用Open AI Gym作为仿真平台实现小车爬山仿真实验,验证了用生成对抗网络思想实现强化学习算法的有效性,对比Q学习算法,文章提出的"基于生成对抗网络的强化学习算法"(GRL)在追踪数据输出时,其输出的目标函数收敛次数大约少于40次,大大提高学习速度,改善了现有技术中存在网络滞后的学习情况.
强化学习、生成对抗网络、训练样本、相对熵、函数收敛
38
TP181(自动化基础理论)
2022-08-12(万方平台首次上网日期,不代表论文的发表时间)
共4页
174-176,190