10.16526/j.cnki.11-4762/tp.2019.02.016
基于异步优势执行器评价器的自适应PID控制
自适应PID较好地解决了传统PID无法自整定参数的问题,已成为控制领域内的研究热点;研究基于异步优势执行器评价器(Asynchronous Advantage Actor-Critic,A3C)算法设计了一种新的自适应PID控制器;该控制器利用A3C结构的多线程异步学习特性,并行训练多个执行器评价器(Actor-Critic,AC)结构的智能体,每个智能体采用多层前馈神经网络逼近策略函数和值函数实现在连续动作空间中搜索最优的参数整定策略,以达到最佳的控制效果;与已有的多种自适应PID控制器性能对比分析结果表明该方法具有收敛速度快,自适应能力强的特点.
深度强化学习、异步优势执行器评价器、自适应PID
27
TP27(自动化技术及设备)
“十三五”重大专项2017ZX05009-001,2016ZX05011-002;中央高校基本科研业务费18CX02020A
2019-08-14(万方平台首次上网日期,不代表论文的发表时间)
共5页
70-73,78