基于深度强化学习的非置换流水车间调度问题

引用

摘要：

针对传统调度算法不能有效利用历史数据进行学习,实时性较差而难以应对复杂多变的实际生产调度环境等问题,首次提出一种基于时序差分法的深度强化学习算法.该方法综合神经网络和强化学习实时性、灵活性的优势,直接依据输入的加工状态进行行为策略选取,更贴近实际订单响应式生产制造系统的调度决策过程.通过将调度问题转化为多阶段决策问题,用深度神经网络模型拟合状态值函数,把制造系统加工状态特征数据输入模型,采用时序差分法训练模型,把启发式算法或分配规则作为调度决策候选行为,结合强化学习在线评价—执行机制,从而为每次调度决策选取最优组合行为策略.在非置换流水车间标准问题集上的测试结果表明,该算法能够取得低于实例上界的较优解.

关键词：深度学习、时序差分法、强化学习、非置换流水车间、调度

所属期刊栏目：27

分类号：TP18(自动化基础理论)

资助基金：国家自然科学基金面上资助项目;国家自然科学基金国际地区合作与交流资助项目

在线出版日期：2021-03-04（万方平台首次上网日期，不代表论文的发表时间）

页数：共14页

页码：192-205

英文信息展示

期刊专题