多智能体强化学习的机械臂运动控制决策研究

引用

摘要：

针对传统运动控算法存在环境适应性较差,效率低的问题.可以利用强化学习在环境中不断去探索试错,并通过奖励函数对神经网络参数进行调节的方法对机械臂的运动进行控制.但是在现实中无法提供机械臂试错的环境,采用Unity引擎平台来构建机械臂的数字孪生仿真环境,设置观察状态变量和设置奖励函数机制,并提出在该模型环境中对PPO(proximal policy optimization)与多智能体(agents)结合的M-PPO算法来加快训练速度,实现通过强化学习算法对机械臂进行智能运动控制,完成机械臂执行末端有效避障快速到达目标物体位置,并通过该算法与M-SAC(多智能体与Soft Actor-Critic结合)和PPO算法的实验结果进行分析,验证M-PPO算法在不同环境下机械臂运动控制决策调试上的有效性与先进性.实现孪生体自主规划决策,反向控制物理体同步运动的目的.

关键词：强化学习、Unity引擎、运动控制、M-PPO算法、多智能体

所属期刊栏目：59

分类号：TP391(计算技术、计算机技术)

资助基金：江苏省科技支撑计划工业项目;国家自然科学基金

在线出版日期：2023-03-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：318-325

英文信息展示

期刊专题