基于深度强化学习的动态装配算法
针对动态装配环境中存在的复杂、动态的噪声扰动,提出一种基于深度强化学习的动态装配算法.将一段时间内的接触力作为状态,通过长短时记忆网络进行运动特征提取;定义序列贴现因子,对之前时刻的分奖励进行加权得到当前时刻的奖励值;模型输出的动作为笛卡尔空间位移,使用逆运动学调整机器人到达期望位置.与此同时,提出一种对带有资格迹的时序差分算法改进的神经网络参数更新方法,可缩短模型训练时间.在实验部分,首先在圆孔–轴的简单环境中进行预训练,随后在真实场景下继续训练.实验证明提出的方法可以很好地适应动态装配任务中柔性、动态的装配环境.
柔索模型、动态噪声、动态装配、深度强化学习、长短时记忆网络、序列贴现因子、带有资格迹的时序差分算法、预训练
18
TP242.6(自动化技术及设备)
国家自然科学基金52075531
2023-03-03(万方平台首次上网日期,不代表论文的发表时间)
共10页
2-11