双层Q学习算法优化多机动态调度：全局与局部兼顾

工程技术

论文

需积分: 14 59 浏览量更新于2024-08-11 1 收藏 632KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

本文档深入探讨了"面向多机动态调度问题的两层Q学习算法"，该研究针对传统的Q学习在多机调度问题上的局限性进行改进。Q学习，作为一种强化学习方法，在单机动态调度中表现出色，但面对多机环境时，由于缺乏全局视角，可能导致决策效果不理想。为了克服这一问题，研究者提出了一种双层Q学习框架。在底层Q学习中，算法专注于局部策略，目标是优化设备利用效率和降低作业平均处理时间。它通过学习单机调度决策，例如选择最合适的任务分配和执行顺序，来最小化设备空闲时间和作业流转时间。底层Q学习的每个状态可能包括当前机器的工作负载、任务等待队列等信息，动作则是指对任务进行调度的决策。顶层Q学习则从全局角度出发，旨在平衡所有机器的负载并减少整体的延迟。它考虑的是如何最优地将任务分配到不同的机器，以达到整体性能的最大化。状态空间可能包含了机器间的负载差异、任务的特性（如优先级、复杂度等）、以及当前的调度决策结果。顶层Q学习的目标函数不仅关注短期收益，还考虑长期影响，以确保系统的稳定性。在设计上，两层Q学习算法都定义了明确的动作集和状态空间划分，以及奖励或惩罚函数，以指导学习过程。奖励函数可能基于每个动作的实际效果，如任务完成速度、延迟减少量等，而惩罚函数则针对不良决策导致的后果，比如过度负荷的机器或长时间未完成的任务。实验部分，通过对多机动态调度问题的仿真，验证了双层Q学习算法的有效性。结果显示，与传统单层Q学习相比，这种新的学习策略能够在复杂的动态环境中提供更优的多机调度方案，显著提高了整体调度效率和机器利用率。总结来说，这篇论文提出了一个创新的双层Q学习框架，通过结合局部和全局视角，解决了多机动态调度中的挑战。这对于提高大规模并行系统中的任务调度效率具有重要意义，也为强化学习在工业工程和计算机科学领域的实际应用提供了新的思考方向。

资源详情

资源推荐

第  卷第  期

智能系统学报

Ｖｏｌ 

 年  月  

ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ

Ｊｕｎ

ｄｏｉ ｊｉｓｓｎ

面向多机动态调度问题的两层Ｑ学习算法

王国磊钟诗胜林琳

哈尔滨工业大学机电工程学院黑龙江哈尔滨 

摘要对于单机动态调度问题十分有效的Ｑ学习在多机动态调度环境下却由于缺乏全局眼光而效果欠佳因此

提出了一种双层Ｑ学习算法底层Ｑ学习着眼于局部以最小化设备空闲和作业平均流经时间为目标学习单机调

度策略而顶层Ｑ学习则着眼于全局以平衡机器负载最小化整体拖期值为目标学习如何分配作业到合适机器

文中分别给出了两层Ｑ学习的动作集状态空间划分方式和奖惩函数设计并通过对多机动态调度问题的仿真实验

表明提出的双层Ｑ学习能够很好地解决改善动态环境下多机调度问题

关键词动态多机调度Ｑ学习动作集状态空间划分奖惩函数

中图分类号ＴＰ 文献标识码Ａ文章编号

ＢｉｌｅｖｅｌＱｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｄｙｎａｍｉｃｍｕｌｔｉｍａｃｈｉｎｅ

ｓｃｈｅｄｕｌｉｎｇｐｒｏｂｌｅｍｓ

ＷＡＮＧＧｕｏｌｅｉ ＺＨＯＮＧＳｈｉｓｈｅｎｇ ＬＩＮＬｉｎ

ＳｃｈｏｏｌｏｆＭｅｃｈａｎｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ ＨａｒｂｉｎＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ Ｈａｒｂｉｎ  Ｃｈｉｎａ

ＡｂｓｔｒａｃｔＴｒａｄｉｔｉｏｎａｌＱｌｅａｒｎｉｎｇｉｓｖｅｒｙｅｆｆｅｃｔｉｖｅｉｎｄｙｎａｍｉｃｓｉｎｇｌｅｍａｃｈｉｎｅｓｃｈｅｄｕｌｉｎｇｐｒｏｂｌｅｍｓ ｙｅｔｓｏｍｅｔｉｍｅｓｉｔ

ｃａｎｎｏｔｇｅｔｏｐｔｉｍａｌｒｅｓｕｌｔｓｆｏｒｄｙｎａｍｉｃｍｕｌｔｉｍａｃｈｉｎｅｓｃｈｅｄｕｌｉｎｇｐｒｏｂｌｅｍｓｄｕｅｔｏｉｔｓｌａｃｋｏｆｇｌｏｂａｌｖｉｓｉｏｎＴｏｒｅ

ｓｏｌｖｅｔｈｉｓ ａｔｗｏｌａｙｅｒＱｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｗａｓｐｕｔｆｏｒｗａｒｄＴｈｅｂｏｔｔｏｍｌｅｖｅｌｏｆＱｌｅａｒｎｉｎｇｗａｓｆｏｃｕｓｅｄｏｎｌｏｃａｌ

ｉｚｅｄｔａｒｇｅｔｓｉｎｏｒｄｅｒｔｏｌｅａｒｎｔｈｅｏｐｔｉｍａｌｓｃｈｅｄｕｌｉｎｇｐｏｌｉｃｙｗｈｉｃｈｃａｎｍｉｎｉｍｉｚｅｍａｃｈｉｎｅｉｄｌｅｎｅｓｓａｎｄｔｈｅｍｅａｎｆｌｏｗ

ｔｉｍｅｏｆｓｉｎｇｌｅｍａｃｈｉｎｅｓＯｎｔｈｅｏｔｈｅｒｈａｎｄ ｔｈｅｔｏｐｌｅｖｅｌｏｆＱｌｅａｒｎｉｎｇｗａｓｆｏｃｕｓｅｄｏｎｇｌｏｂａｌｔａｒｇｅｔｓｉｎｏｒｄｅｒｔｏ

ｆｉｎｄｔｈｅｄｉｓｐａｔｃｈｉｎｇｐｏｌｉｃｙｗｈｉｃｈｃａｎｂａｌａｎｃｅｍａｃｈｉｎｅｌｏａｄｓａｎｄｍｉｎｉｍｉｚｅｔｈｅｏｖｅｒａｌｌｔａｒｄｉｎｅｓｓｏｆａｌｌｊｏｂｓＴｈｅ

ｓｃｈｅｄｕｌｉｎｇａｎｄｄｉｓｐａｔｃｈｉｎｇｒｕｌｅｓｏｆａｇｅｎｔｓ ｔｈｅｍｅｔｈｏｄｆｏｒｄｉｖｉｄｉｎｇｓｔａｔｅｓｐａｃｅａｎｄｔｈｅｒｅｗａｒｄｆｕｎｃｔｉｏｎｓｗｅｒｅａｌｌｅｘ

ａｍｉｎｅｄＳｉｍｕｌａｔｉｏｎｒｅｓｕｌｔｓｓｈｏｗｅｄｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｔｗｏｌａｙｅｒＱｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｃａｎｉｍｐｒｏｖｅｔｈｅｒｅｓｕｌｔｓｏｆｄｙ

ｎａｍｉｃｍｕｌｔｉｍａｃｈｉｎｅｓｃｈｅｄｕｌｉｎｇｐｒｏｂｌｅｍｓ

Ｋｅｙｗｏｒｄｓｄｙｎａｍｉｃｍｕｌｔｉｍａｃｈｉｎｅｓｃｈｅｄｕｌｉｎｇ Ｑｌｅａｒｎｉｎｇ ａｃｔｉｏｎｓｅｔ ｓｔａｔｅｓｐａｃｅｄｉｖｉｓｉｏｎ ｒｅｗａｒｄｆｕｎｃｔｉｏｎ

收稿日期

基金项目国家计划资助项目ＡＡＺ 

通信作者王国磊Ｅｍａｉｌ Ｗａｎｇｇｌｈｉｔｃｏｍ

 Ｑ学习是一种典型的强化学习方法它不需要

建立任何领域模型而是直接优化一个可迭代计算

的Ｑ函数获得最优控制策略近年来Ｑ学习得到

了研究人员的广泛重视



但其应用目前还主要集

中在游戏比赛控制系统和机器人领域在作业排序

问题上的应用尚不多见



比较经典的研究有

Ａｙｄｉｎ等人利用ＱＩＩＩ算法训练智能体动态选择调

度规则



Ｗａｎｇ等人将强化学习应用于动态单机

调度研究



国内学者中魏英姿最早将强化学习

应用于车间动态作业调度



其后王世进等人也分

别对利用Ｑ学习算法实时选择调度规则进行了研

究



这些研究表明Ｑ学习能够使智能体从给定

的调度规则中选择出较好的调度规则

但是这些研究还都仅限于单机调度问题对于

多于多机动态调度问题如果仍然将每台机器视为

Ａｇｅｎｔ利用Ｑ学习根据各自的局部目标选择调度策

略那么往往会因为缺乏全局眼光而不能达到最优

效果因此本文进一步设计了符合多机动态调度问

题特点的双层Ｑ学习机制以保证整个系统的行为

能朝着预期的方向演化

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38556416

粉丝: 6
资源: 931

双层Q学习算法优化多机动态调度：全局与局部兼顾

PSO算法求解作业车间调度问题

Q-learning代码

Q_learning代码实例

在调度问题中，动态问题和静态问题的区别是什么，主要用的解决算法有什么不同

多机调度算法java

多机调度问题贪心算法

贪心算法解决多机调度问题

用遗传算法解决RGV动态调度问题

多机调度问题贪心算法 C语言

多机调度问题python

多机调度问题贪心算法python

用贪心算法解决多机调度问题

matlab-基于多层编码遗传算法的车间调度问题

贪心算法多机调度 结论

多机调度问题贪心算法C++

多机调度问题贪心算法C语言

贪心算法 多机调度问题

处理机调度算法先来先服务算法

进程调度算法中面向用户的算法有哪些，以及简单介绍下这些算法

机器学习车辆调度算法

最新资源

贪心算法多机调度结论

贪心算法多机调度问题