多智能体专家型策略梯度的目标跟踪与清障
为适应复杂环境下目标跟踪机器人高效运动规划需求,本文提出一种基于多智能体强化学习的专家型策略梯度(ML-DDPG)方法.为此首先构建了基于最小化任务单元的分布式多Actor-Critic网络架构;随后针对机器人主动障碍清除和目标跟踪任务建立了强化学习运动学模型和视觉样本预处理机制,由此提出一种专家型策略引导的最优目标价值估计方法;进一步通过并行化训练与集中式经验共享,提升了算法的训练效率;最后在不同任务环境下测试了ML-DDPG算法的目标跟踪与清障性能表现,和其它算法对比验证了其在陌生环境中良好的迁移与泛化能力.
移动机器人、多智能体、强化学习、运动规划、专家策略
39
TP181;V249.1;TP242
国家自然科学基金;河北省高等学校科学技术研究项目
2023-03-07(万方平台首次上网日期,不代表论文的发表时间)
共11页
1854-1864