10.3969/j.issn.1673-4785.2009.03.008
面向多机动态调度问题的两层Q学习算法
对于单机动态调度问题十分有效的Q学习,在多机动态调度环境下却由于缺乏全局眼光而效果欠佳,因此提出了一种双层Q学习算法.底层Q学习着眼于局部,以最小化设备空闲和作业平均流经时间为目标,学习单机调度策略;而顶层Q学习则着眼于全局,以平衡机器负载、最小化整体拖期值为目标,学习如何分配作业到合适机器.文中分别给出了两层Q学习的动作集、状态空间划分方式和奖惩函数设计,并通过对多机动态调度问题的仿真实验表明,提出的双层Q学习能够很好地解决改善动态环境下多机调度问题.
动态多机调度、Q学习、动作集、状态空间划分、奖惩函数
4
TP273(自动化技术及设备)
国家"863"计划资助项目2008AA04Z401
2009-08-19(万方平台首次上网日期,不代表论文的发表时间)
共6页
239-244