10.3969/j.issn.1674-3415.2009.10.007
基于强化学习的互联电网CPS自校正控制
AGC是一个动态多级决策问题--马尔可夫决策过程(MDP),应用强化学习算法可有效地实现控制策略的在线学习和动态优化决策.引入Q学习算法作为强化学习核心算法,将CPS值看作包含AGC的电力系统"环境"所给的"奖励",依靠奖励值Q函数与CPS控制动作形成的闭环控制结构实现在线学习.学习目标是使CPS控制动作从环境获得的长期积累奖励值最大,从而快速自动地在线优化CPS控制系统的输出.仿真研究显示,引入强化学习自校正控制后显著增强了整个AGC系统的鲁棒性和适应性,有效提高了CPS考核合格率.
强化学习、Q学习算法、自动发电控制、CPS标准、自校正控制
37
TM71;TP181(输配电工程、电力网及电力系统)
国家自然科学基金项目50807016;广东省自然科学基金博士启动基金项目06300091
2009-06-24(万方平台首次上网日期,不代表论文的发表时间)
共6页
33-38