基于AM-RPPO的双足机器人适应性行走控制算法
提出了一种带有注意力机制和循环近端策略优化(AM-RPPO)的深度强化学习(DRL)方法并将其应用于双足机器人的适应性行走控制.首先,对未知环境下双足机器人关节空间行走控制问题依照部分可观测马尔可夫决策过程(POMDP)进行建模,指出了DRL算法近端策略优化(PPO)对真实状态的估计存在偏差的问题.其次,引入循环神经网络(RNN)架构,分析了RNN对时序环境观测状态不同于多层感知机的正向传播过程,说明了RNN相对于传统神经网络的优势,并且将RNN分别嵌入动作生成网络和价值函数生成网络中.再次,引入在深度学习诸多领域应用广泛的注意力机制(AM),利用AM建立基于不同时间步的状态,求得最终价值函数的权重差异化模型.最后,通过仿真实验验证了提出的AM-RPPO算法对存在高维状态信息输入的双足机器人控制问题的有效性.
深度强化学习、循环神经网络、注意力机制、自适应双足行走
41
TP242.6(自动化技术及设备)
国家自然科学基金61573260, 61673300;上海市"科技创新行动计划"基础研究领域项目16JC1401200, 17511108602, 18DZ1200804;江苏省自然科学基金BK20171250
2019-11-26(万方平台首次上网日期,不代表论文的发表时间)
共11页
731-741