10.3778/j.issn.1002-8331.1912-0382
采用DDPG的双足机器人自学习步态规划方法
为解决多自由度双足机器人步行控制中高维非线性规划难题,挖掘不确定环境下双足机器人自主运动潜力,提出了一种改进的基于深度确定性策略梯度算法(DDPG)的双足机器人步态规划方案.把双足机器人多关节自由度控制问题转化为非线性函数的多目标优化求解问题,采用DDPG算法来求解.为解决全局逼近网络求解过程收敛慢的问题,采用径向基(RBF)神经网络进行非线性函数值的计算,并采用梯度下降算法更新神经网络权值,采用SumTree来筛选优质样本.通过ROS、Gazebo、Tensorflow的联合仿真平台对双足机器人进行了模拟学习训练.经数据仿真验证,改进后的DDPG算法平均达到最大累积奖励的时间提前了45.7%,成功率也提升了8.9%,且经训练后的关节姿态角度具有更好的平滑度.
双足机器人、步态规划、深度确定性策略梯度算法(DDPG)、径向基函数(RBF)神经网络、SumTree、Gazebo
57
TP242(自动化技术及设备)
国家自然科学基金51775468,51375419
2021-03-25(万方平台首次上网日期,不代表论文的发表时间)
共6页
254-259