10.3778/j.issn.1002-8331.1712-0297
优化深度确定性策略梯度算法
深度强化学习善于解决控制的优化问题,连续动作的控制因为精度的要求,动作的数量随着动作维度的增加呈指数型增长,难以用离散的动作来表示.基于Actor-Critic框架的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法虽然解决了连续动作控制问题,但是仍然存在采样方式缺乏科学理论指导、动作维度较高时的最优动作与非最优动作之间差距被忽视等问题.针对上述问题,提出一种基于DDPG算法的优化采样及精确评价的改进算法,并成功应用于选择顺应性装配机器臂(Selective Compliance Assembly Robot Arm,SCARA)的仿真环境中,与原始的DDPG算法对比,取得了良好的效果,实现了SCARA机器人快速自动定位.
强化学习、深度学习、连续动作控制、机器臂
55
TP305(计算技术、计算机技术)
国家自然科学基金51675166
2019-10-30(万方平台首次上网日期,不代表论文的发表时间)
共7页
151-156,233