基于深度强化学习的非置换流水车间调度问题
针对传统调度算法不能有效利用历史数据进行学习,实时性较差而难以应对复杂多变的实际生产调度环境等问题,首次提出一种基于时序差分法的深度强化学习算法.该方法综合神经网络和强化学习实时性、灵活性的优势,直接依据输入的加工状态进行行为策略选取,更贴近实际订单响应式生产制造系统的调度决策过程.通过将调度问题转化为多阶段决策问题,用深度神经网络模型拟合状态值函数,把制造系统加工状态特征数据输入模型,采用时序差分法训练模型,把启发式算法或分配规则作为调度决策候选行为,结合强化学习在线评价—执行机制,从而为每次调度决策选取最优组合行为策略.在非置换流水车间标准问题集上的测试结果表明,该算法能够取得低于实例上界的较优解.
深度学习、时序差分法、强化学习、非置换流水车间、调度
27
TP18(自动化基础理论)
国家自然科学基金面上资助项目;国家自然科学基金国际地区合作与交流资助项目
2021-03-04(万方平台首次上网日期,不代表论文的发表时间)
共14页
192-205