基于非策略Q-学习的网络控制系统最优跟踪控制
针对具有数据包丢失的网络化控制系统跟踪控制间题,提出一种非策略Q-学习方法,完全利用可测数据,在系统模型参数未知并且网络通信存在数据丢失的情况下,实现系统以近似最优的方式跟踪目标.首先,刻画具有数据包丢失的网络控制系统,提出线性离散网络控制系统跟踪控制间题;然后,设计一个Smith预测器补偿数据包丢失对网络控制系统性能的影响,构建具有数据包丢失补偿的网络控制系统最优跟踪控制间题;最后,融合动态规划和强化学习方法,提出一种非策略Q-学习算法.算法的优点是:不要求系统模型参数己知,利用网络控制系统可测数据,学习基于预测器状态反馈的最优跟踪控制策略;并且该算法能够保证基于Q-函数的迭代Bellman方程解的无偏性.通过仿真验证所提方法的有效性.
网络控制、非策略Q-学习、线性二次跟踪(LQT)、数据包丢失
34
TP13(自动化基础理论)
国家自然科学基金项目61673280, 61525302, 61590922, 61503257;辽宁省高等学校创新人才项目LR2017006;辽宁省自然基金计划重点领域联合开放基金项目2019-KF-03-06;辽宁石油化工大学基金项目2018XJJ-005
2019-11-18(万方平台首次上网日期,不代表论文的发表时间)
共7页
2343-2349