基于多步回溯Q学习的自动发电控制指令动态优化分配算法
单步Q学习在火电占优、机组时延较大的A动发电控制(AGC)功率指令动态优化分配中的应用表现出收敛速度慢等不足而影响最优策略的获取.具有多步预见能力的多步回溯Q学习(Q(λ))显式利用资格迹进行高效回溯操作,能够有效解决火电机组大时滞环节带来的延时回报问题,算法平均收敛时间较Q学习缩短50%以上.算法奖励函数引入调节费用一项,形成多目标动态最优控制.两区域模型及南方电网模型仿真研究分析显示,Q(λ)算法在随机、大负荷扰动的复杂系统环境中有效提高系统控制性能标准(CPS)控制品质和适应性,并且在保证CPS合格率的前提下,使AGC调节费用下降超过5%.
Q(λ)学习、自动发电控制、控制性能标准、随机最优、调节费用
28
TM71(输配电工程、电力网及电力系统)
国家自然科学基金资助项目50807016;广东省自然科学基金资助项目9151064101000049
2011-05-25(万方平台首次上网日期,不代表论文的发表时间)
共7页
58-64