10.3969/j.issn.1006-9348.2021.06.090
结合DDPG与优先数据剪枝的样本处理方法
针对深度确定性策略梯度算法(DDPG)中的经验回放机制,提出了一种综合了高优先级数据重播和高相似度数据剪枝,并对送人网络训练的样本数据进行处理的方法.针对先进先出存储方法和重放缓冲区中随机采样方式造成经验回放效率较低的问题,提出了解决方案:选择高优先级样本送入网络进行训练,同时移除缓冲区中的相似度较高的样本并保留一些罕见的样本.通过相关实验表明,方法不仅可以在更短的训练时间内达到更好的性能,而且可以加快训练过程,提高学习稳定性和长期记忆能力.
深度确定性策略梯度算法、重播缓冲区、数据剪枝、优先级经验重放
38
TP391.9(计算技术、计算机技术)
国家自然科学基金61262074
2021-07-26(万方平台首次上网日期,不代表论文的发表时间)
共6页
428-433