第 卷第 期
智能系统学报
Vol
年 月
CAAI Transactions on Intelligent Systems
Jun
doi jissn
面 向 多 机 动 态 调 度 问 题 的 两 层 Q 学 习 算 法
王国磊钟诗胜林琳
哈尔滨工业大学 机电工程学院黑龙江 哈尔滨
摘要对于单机动态调度问题十分有效的 Q 学习在多机动态调度环境下却由于缺乏全局眼光而效果欠佳因此
提出了一种双层 Q 学习算法底层 Q 学习着眼于局部以最小化设备空闲和作业平均流经时间为目标学习单机调
度策略而顶层 Q 学习则着眼于全局以平衡机器负载最小化整体拖期值为目标学习如何分配作业到合适机器
文中分别给出了两层 Q 学习的动作集状态空间划分方式和奖惩函数设计并通过对多机动态调度问题的仿真实验
表明提出的双层 Q 学习能够很好地解决改善动态环境下多机调度问题
关键词动态多机调度Q 学习动作集状态空间划分奖惩函数
中图分类号TP 文献标识码A文章编号
Bilevel Qlearning algorithm for dynamic multimachine
scheduling problems
WANG Guolei ZHONG Shisheng LIN Lin
School of Mechanical Engineering Harbin Institute of Technology Harbin China
AbstractTraditional Qlearning is very effective in dynamic singlemachine scheduling problems yet sometimes it
cannot get optimal results for dynamic multimachine scheduling problems due to its lack of global visionTo re
solve this a twolayer Qlearning algorithm was put forwardThe bottomlevel of Qlearning was focused on local
ized targets in order to learn the optimal scheduling policy which can minimize machine idleness and the mean flow
time of single machinesOn the other hand the toplevel of Qlearning was focused on global targets in order to
find the dispatching policy which can balance machine loads and minimize the overall tardiness of all jobsThe
scheduling and dispatching rules of agents the method for dividing state space and the reward functions were all ex
aminedSimulation results showed that the proposed twolayer Qlearning algorithm can improve the results of dy
namic multimachine scheduling problems
Keywordsdynamic multimachine scheduling Qlearning action set state space division reward function
收稿日期
基金项目国家计划资助项目AAZ
通信作者王国磊Email Wangglhitcom
Q 学习是一种典型的强化学习方法它不需要
建立任何领域模型而是直接优化一个可迭代计算
的 Q 函数获得最优控制策略近年来Q 学习得到
了研究人员的广泛重视
但其应用目前还主要集
中在游戏比赛控制系统和机器人领域在作业排序
问题上的应用 尚不 多见
比较 经典 的 研 究 有
Aydin 等人利用 QIII 算法训练智能体动态选择调
度规则
Wang 等人将强化学习应用于动态单机
调度研究
国内学者中魏英姿最早将强化学习
应用于车间动态作业调度
其后王世进等人也分
别对利用 Q 学习算法实时选择调度规则进行了研
究
这些研究表明Q 学习能够使智能体从给定
的调度规则中选择出较好的调度规则
但是这些研究还都仅限于单机调度问题对于
多于多机动态调度问题如果仍然将每台机器视为
Agent利用 Q 学习根据各自的局部目标选择调度策
略那么往往会因为缺乏全局眼光而不能达到最优
效果因此本文进一步设计了符合多机动态调度问
题特点的双层 Q 学习机制以保证整个系统的行为
能朝着预期的方向演化