schlably：深度强化学习生产调度Python框架

183 浏览量更新于2024-01-27 收藏 749KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件X 22（2023）101383原始软件出版物schlably：一个用于基于深度强化学习的调度实验的Python框架Constantin Waubert de PuiseauP.，Jannik Peters，Christian Dörpelkus，Hasan Tercan，Tobias Meisen数字化转型技术与管理研究所，伍珀塔尔大学，Rainer-Gruenter-Str. 21，Wuppertal，42119，NRW，德国ar t i cl e i nf o文章历史记录：2022年12月23日收到收到修订版，2023年2月24日接受，2023年保留字：生产调度深度强化学习Python框架a b st ra ct近年来，基于深度强化学习（DRL）的生产调度（PS）研究受到了广泛关注，这主要是由于不同行业环境中对优化调度问题的高需求。许多研究都是作为独立的实验进行和发表的，这些实验在问题设置和解决方法方面往往只有轻微的变化。这些实验的程序核心通常非常相似。尽管如此，到目前为止，还没有标准化的和弹性的框架，用于用DRL算法对PS问题进行实验在本文中，我们介绍了schlably，一个基于Python的框架，为研究人员提供了一个全面的工具集，以促进基于DRL的PS解决方案策略的开发。它可以消除创建一个坚固而灵活的主干所需的冗余开销工作，并增加所进行的研究工作的可比性和可重用性©2023由Elsevier B.V.发布这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。代码元数据当前代码版本v0.1.0用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-22-00444法律代码许可证Apache许可证，2. 0（Apache-2. 0）使用git的代码版本控制系统使用的软件代码语言、工具和服务Python、OpenAI Gym、RLlib、权重和偏置编译要求、操作环境依赖性Python 3.10如果可用，链接到开发人员文档/手册https://schlably.readthedocs.io/en/latest/index.html问题支持电子邮件schlably@uni-wuppertal.de软件元数据当前软件版本v0.1.0此版本可执行文件的永久链接https://github.com/tmdt-buw/schlablyApache许可证，2.0（Apache-2.0）计算平台/操作系统Python，OpenAI Gym，DRLlib，权重和偏差安装要求依赖Python 3.10如果可用，请链接到用户手册-如果正式出版，请在参考列表中引用该出版物https://schlably.readthedocs.io/en/latest/index.html问题支持电子邮件schlably@uni-wuppertal.de*通讯作者。电子邮件地址：cwaubertdepuise@uni-wuppertal.de（中国）Waubert de Puiseau）。https://doi.org/10.1016/j.softx.2023.1013831. 动机和意义生产调度问题是运筹学和优化领域中一个具有挑战性的研究热点.它涉及随着时间的推移将资源分配给生产作业，以最小化时间，精力和成本等标准[1]。PS问题2352-7110/©2023由Elsevier B. V.出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softxC. Waubert de Puiseau，Jannik Peters，Christian Dörpelkus等软件X 22（2023）1013832属于组合优化问题的类别，其需要大量的计算工作来随着问题大小的增加而充分地解决。近年来，随着越来越强大的算法和计算硬件，深度再学习（DRL）已经成为解决PS问题的有前途的工具[2DRL是一种机器学习范式，其中深度学习模型通过与其环境交互的强化学习代理收集的经验数据进行训练，从而自主地导出顺序任务的解决方案策略[9]。基于DRL的PS的年轻研究领域位于运筹学和人工智能的交叉点，因此其特征在于具有不同问题解决方法和技术技能集的异构社区。然而，所有的实证研究都采用了非常相似的实验设置，由相同的主要软件组件组成：代表生产设施布局和逻辑的环境，调度问题发生器，DRL代理算法，以及日志记录和评估工具。不同实验设置之间的差异通常在于这些组件中的一个或多个，例如，通过结合新的DRL算法[10不管大的重叠，所有的研究人员实施自己的个人实验框架，以下两个后果：大的初始爬坡努力时，尝试新的方法或自定义的问题设置，和缺乏经验比较其他作品。在本文中，我们解决了这些缺点，并提出了软件框架schlably开发和评估基于DRL的PS解决方案。schlably提供了以下贡献：它是模块化的，因此可以在没有太多开销的情况下调整个别更改。它可以开箱即用地使用功能环境、数据生成脚本、代理、日志功能、培训和测试脚本。它为不同的调度问题类别和大小提供了基准数据集。它包括广泛认可的基准算法和结果。它便于将为一个问题类和大小设计的算法应用于其他问题。schlably将通过降低来自不同领域、具有不同视角、专业知识水平和目标的研究人员的进入门槛，加速基于DRL的PS在现实条件下的研究领域。2. 背景和相关工作schlably最初是作为一个代码库，在一个大学研究项目的背景下，与工业合作伙伴一起对一个真实世界启发的调度问题进行实验。因此，几个需求在早期变得明显，可以总结为四个一般设计目标。首先，从应用工业的角度来看，schlably必须提供DRL方法和开箱即用的物流学的集成。第二，它还必须覆盖不同的调度场景，例如，包括由资源约束所限定的调度场景。第三，从科学研究的角度来看，schlably应该支持方法的详细可比性评价.最后，它必须易于在代码级别进行交互，使经验有限的学生能够快速理解主题，概念和实现。本节将讨论这些设计目标的含义。在下文中，我们将概述相关的已发表实验框架，并将它们与我们的设计目标进行在schlably。在比较中，我们包括专门用于其他人的框架[16-这些框架是通过科学出版物中的参考文献和GitHub上的“调度强化学习”搜索找到的。我们并不认为这个列表是详尽的，但在撰写本文时，我们并不知道有任何其他流行的框架。商业或专业调度软件被排除在外，因为许可费和其他伴随的挑战引入了一个主要的障碍。但是，我们不知道有任何商业软件可以提供DRL和PS的紧密集成。表1提供框架概述。此外，我们还评估了他们是否实现了我们的设计目标，这些目标被正式分为以下四组。预先实施的基准。几个框架要么提供预实现的DRL代理和用于培训的脚本，要么提供来自流行DRL库（例如Sta- bleBaselines [27]或RLlib [28]）的代理的轻松集成。与[20]一样，我们的目标是启用和促进基本 DRL 算法的手动扩展，如深度 Q-Networks（DQN）[29]和邻近策略优化（PPO）[30]，以及使用强大的第三方库。这两个选项都很重要，使用户能够选择适当的方法，为各自的研究兴趣，因此在schlably实施。此外，为了可比性，它是至关重要的，以流行的优先级调度规则（PDR），如最短的处理时间优先的形式提供共同的基准，和一个灵活的最佳解决方案，可以处理几种调度问题类型。schlably提供了这些基线，而大多数其他框架只覆盖了一些PDR，通常缺少竞争性的，例如Most-Tasks-Remaining甚至随机基线，其中代理动作是从正态分布中采样的。调度实例生成。生成具有不同问题案例的新数据对于实现DRL代理的全面培训和测试是必要的。因此，一个合适的框架必须实现灵活的问题实例生成器。该生成器使用户能够创建不同流行类别的调度问题（例如作业车间调度问题（JSSP）或灵活作业车间调度问题（FJSSP）[1]）实例，并具有实例变量的任何组合，如作业数量，任务数量，运行时间等。所有的组合和值都是使用相等的分布绘制的。Schlably通过可选的资源约束进一步扩展了这些选项，其中每个任务需要特定的附加资源。这些选项已经在数据生成中实现，并且可以由schlably中提供的代理处理。此外，它的设计简化了其他调度问题类型的集成，以鼓励实现单个，更复杂或更具体的用例。最后，据我们所知，这是第一个提供可选资源约束的框架。具体地，用户能够指定每个操作所需的工具。记录和评价。以结构化的方式记录结果和评估指标是在训练运行期间快速反馈的关键，也是从大规模实验中识别模式和得出结论的关键我们使用schlably的目标是提供广泛的日志选项，这些选项可以打开和关闭，并且可以共享结果和模型以促进项目协作。[20]在很大程度上满足了这一设计目标，我们从中获得了所有其他框架都没有达到这个设计目标。对于DRL代理生成的解决方案·····C. Waubert de Puiseau，Jannik Peters，Christian Dörpelkus等软件X 22（2023）1013833Ⓧ ◆ Ⓧ Ⓧ Ⓧ ◆ ◆ Ⓧ Ⓧ Ⓧ ◆◆公司简介（<$<$）<$README）<$易于个性化设置Ⓧ Ⓧ Ⓧ Ⓧ Ⓧ ◆ Ⓧ Ⓧ Ⓧ Ⓧ ◆◆表1概述相关框架及其实现，包括预实现基准（B）、调度实例（S）、日志和评估（L）以及代码可用性（C）[16个][17个][18个国家][21日][19个][20个][22日][23日][24日][25日][26日]施莱布莱已实现的RL-代理）代理B已执行的项目执行报告实施选择。求解器RLLib接口（可选）灵活的数据生成方式（可选）◆ ◆SJSSP◆不同的问题类型资源约束工具记录所取得的成果<$）<$$><$） <$$><$）<$） <$评价取得的成果ⓍⓍ)ⓍⓍ◆Ⓧ)Ⓧ Ⓧ ))Ⓧ ◆ ◆L可视化Gantt-Chart（甘特图表）与求解器的与PDR的比较（英文）纸张<$<$$><$C代码文档<$<$$><$）<$<$工作开箱即用<$）<$<$<$$><$<$<$<$<$<$<$自述文件中的用户手册<$）<$）<$◆ <$<$OpenAI Gym Env健身房环境传说：未完成）完成一半◆完成。框架应适用上述基准，并提供总体业绩概览。大多数经审查的框架缺乏这方面的功能此外，为了获得图形概述并直观地支持跟踪生产计划中的非常具体的操作，一个图表绘图器对于人工检查是有用该图表应显示操作的所有元数据，例如运行时或所需的工具，并且已被发现有助于调试和评估DRL代理。许多其他框架，但不是所有的，都包括一个图表。代码可用性。由于可用性是最重要的，一个框架必须通过完整的文档提供方便的访问，并且必须包括README、用户应用程序编程接口（API）手册和正式的功能描述。在审查的框架内，只有[20]涵盖了所有标准。为了能够与不同的技能组合一起使用，我们的明确目标是使用户能够通过仅使用配置文件来开始试验小的设计决策出于这个原因，我们更倾向于在不可避免的情况下进行权衡这需要一个谨慎的平衡。在我们看来，所有其他框架都过分强调了一个方面：[20]通过配置文件提供了许多功能更改，但代价是相对复杂的软件架构。另一方面，所有其他框架都更小，更容易获得概述，以有限的功能为代价。最后，一个声称广泛使用的框架应该坚持传统的API。在DRL的上下文中，最常用的API是OpenAI Gym [31] API。只有一半的审查框架遵守这一原则。3. 软件构架本章介绍我们的框架，重点是实现特定的细节。我们提供了代码本身的一般概述，重点关注当前现有的示例性实现，同时还指出开放接口。此外，我们还详细介绍了schlably的主要组成部分，以证明设计目标的实现，如第2章所介绍的，并使用户能够适应他们的需求schlably。整体结构如图所示。1.一、我们把代码库分为六个主要组件，下面将详细描述。遵循这种面向组件的方法，并结合全面的代码文档，schlably坚持第四个设计目标的目标，这需要在代码级轻松交互和可用性数据生成器。调度问题的一般数据结构，如schlably中所使用的，由所谓的实例表示。用户可以生成调度问题的无限实例，但是，每个实例都是特定的配置和实体。包含在实例中的特定配置由许多作业给出，作业只是由各个任务组成的包含逻辑容器。data_generator组件包含生成这样一个实例和各个任务所需的类。从调度问题的角度来看，它是问题公式和表示的核心。Task类是一个专门设计的数据类，它的实体是一个对象的原子单元。问题实例。这样的实例可以通过SPFactory创建，它允许通过包含的Enum生成不同类型的调度问题。如果用户想在schlably中引入一种新的调度问题，他们必须在这个类中包含他们的函数，并将其添加到Enum中。最后，InstanceFactory支持对问题工厂类的高级访问，并管理基于配置的批量实例创建。因此，data_generator组件实现了第二个设计目标的基础，这需要实现和处理不同的调度场景。环境环境定义了观察空间、行动空间和奖励策略。因此，它代表了代理环境和交互动态的模拟，是任何DRL方法的核心部分。所有schlably环境都包含在环境组件中。示例性地，我们提供了一个简单的调度Env以及一个名为EnvIndirectAction的派生版本来展示可扩展性。所有环境都遵循Gym API，并且显式地从基本Gym环境派生。EnvironmentLoader类支持对不同环境类型和适当算法的高级访问和管理，因为并非所有算法都适用于每个环境。新环境C. Waubert de Puiseau，Jannik Peters，Christian Dörpelkus等软件X 22（2023）1013834×××Fig. 1. schlably项目和代码结构概述。必须包含在此组件中并添加到管理环境加载器中。这个封装的方法与data_generator组件一起代表了第二个设计目标的实现。剂代理组件结合了启发式函数，求解器，DRL算法的实现，以及训练和测试功能的DRL方法。用户可以通过预定义的接口集成其他DRL框架的功能，如更广泛的训练程序，模型类型和学习算法。因此，代理组件实现了第一个设计目标，即支持和简化开箱即用的方法以及预实现的基准测试的集成。视觉发生器。组件visuals_generator包含用于创建问题实例和生成的解决方案的可视化的所有类和脚本。这些功能被有意地隔离为不同的调度问题环境，并且仍然共享相同的可视化方法。例如，Schlably介绍了一种GanttChartPlotter，它使用户能够生成单独的绘图图表图像（见图1）。 2 b）或创建进度安排的GIF。因此，它是实现第三个设计目标的一部分。该模块用于调试和可视化分析，由于所使用的库的限制（确切的限制取决于任务的数量和处理时间），目前只能显示问题大小小于8 8的甘特图。然而，我们认为可视化对于较大的问题规模变得不那么有用，因为有太多的块和颜色来获得概述。公用事业。 utils组件聚集了类和函数，这些类和函数支持schlably 的主要功能。具体来说，它包括用户界面组件（ui_tools），数据接口组件（file_handler），例如加载和保存数据，以及高级Logger类。因此，委员会认为，utils组件实现了第三个设计目标，便于记录和评估以进行比较。代码测试。所有的代码测试，确保关键的功能在code_tests组件中收集了所有描述的组件。到目前为止，我们包含了多个带有中央Runner的单元测试。这些也是为计划扩展代码库的用户提供的示例4. 说明性示例为了说明一个典型的用例，我们考虑一个场景，其中ML工程师想要比较与实现环境交互的两个PPO代理的学习行为。它也是我们文档中教程的一部分。一个代理在6个JSSP实例上训练，并根据每步完成所有任务的时间（即完工时间）的变化获得奖励，如[3]中所提出的。此设置也是框架中提供的默认设置。另一个是在一个3 4工具约束的JSSP实例上训练的，除了最后一步之外，每一步的奖励都是零，其中奖励等于总体实现的完工时间。两个代理与默认环境交互的方式是，在每个步骤中，代理在每个作业序列中的下一个未计划任务之间进行选择然后，通过根据约束在尽可能早的时间调度该任务，并且不移动已经调度的任务，将该任务集成到当前调度中。其余的训练参数保持不变。第二次训练只需要对基本模型进行最小的手动更改。这些包括设置不同的配置参数、生成新数据以及更改基本环境中的奖励函数。详细信息可在文档中找到。权重&偏差[32]的集成界面可以轻松比较训练曲线和所获得的结果，如图所示。二、C. Waubert de Puiseau，Jannik Peters，Christian Dörpelkus等软件X 22（2023）1013835××图二. 比较代理在权重偏差中运行（来自左侧显示的Web界面的屏幕截图）。(a)可视化的训练曲线，用于解释智能体的学习性能。(b)描述经过训练的代理在选定测试实例上的解决方案的示意图。(c)表格提供了测试实例上经过训练的代理和基准方法的所描述的简短示例反映了我们的几个设计目标。图 2（c）表明，代理的性能是自动比较许多其他基准和关于不同的维度，如奖励或差距，以最佳解决方案。连续记录和图形描述在图中可见。2（a）和（b）。这个例子还展示了我们对高代码可用性的理解。实验可以通过改变训练参数（配置文件中只有几行）和对源代码的最小预期更改来定义。在提供的文档中的后续教程中更详细地解释了旨在编码的最常见更改的示例5. 影响schlably对整个社区都很有用。与其他框架相比，它对于降低来自OR或其他相关领域的研究人员的进入壁垒特别有用，他们希望以经验为基础探索调度问题的新方法，以及对于DRL研究人员，他们希望在具有挑战性和影响力的问题领域上测试新算法。我们相信，schlably提供的问题设置的无缝可扩展性也将鼓励研究人员在PS与DRL领域尝试应用于一个特定的问题设置（例如6 6JSSP）的方法论在不同的问题设置（例如11 11工具约束的JSSP）。这有可能大大加快研究从学术问题向现实世界问题的转移。在我们的测试合作伙伴和我们使用schlably的几个项目中，它显著提高了实验的吞吐量。这是因为新的方法思想可以更快地整合，实验结果可以更容易地进行比较。schlably促进了新问题实例的生成以及自定义DRL代理的培训和评估。由于框架中的各种预实现，例如训练和测试例程、众所周知的调度基准以及记录结果的可视化，更容易在PS的DRL中进行实验研究。此外，协作变得更加有效，因为可以轻松地比较设计更改，并且可以通过权重偏差在线查看同行的结果。我们进一步体验到研究项目的生产力大幅提高，新的研究人员和大学生，谁没有以前的领域知识和编码技能，不得不在PS域进行实验。这主要归功于代码文档和模块化结构，但也归功于schlably是100%用Python编写的，因此可以在所有相关的操作系统上运行。6. 讨论和局限性在其目前的状态下，schlably作为一个有用的框架，经验DRL为基础的PS研究。它已经达到了一个成熟的-rity级别，在这个级别上，它开箱即用，据我们所知，与任何已发布的框架相比，它提供了最广泛的不同的易于实现的设计选择一方面，schlably旨在足够抽象和模块化，以提供不同的实例生成、训练和测试配置，而无需许多代码行。另一方面，它的设计不太交织在其代码结构专家们可能会发现，用根本不同的特征来阻碍扩展是可取的。因此，发展需要平衡和某些妥协，有些人可能认为这是限制。例如，一个深思熟虑的选择是支持基于类的问题描述，而不是矢量表示。与向量问题表示相比，基于类的描述简化了关于作业当前状态的某些信息的搜索和使用，并增加了代码可读性。因此，在可读性和计算效率之间做出了有利于前者的选择。7. 结论本文介绍了一个基于DRL的PS研究软件框架schlably随着框架的发布，我们C. Waubert de Puiseau，Jannik Peters，Christian Dörpelkus等软件X 22（2023）1013836努力实现两个主要目标：第一个是降低研究人员的进入门槛，他们在生产调度，深度强化学习（DRL）和/或编码方面几乎没有经验。第二个目标是鼓励已经活跃在该领域的研究人员将他们的方法应用于其他问题设置并进行测试，这在很大程度上是由schlably推动的。这两个目标都旨在促进DRL方法向现实世界调度应用的转移。在未来，我们计划包括更多的问题设置，例如动态JSSP和机器故障等环境的随机属性，以更接近真实世界的场景。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作数据可用性数据将根据要求提供。致谢这项研究工作是在德国联邦经济事务和气候行动部（BMWK）资助的研究项目AlphaMES中进行的。引用[1] 皮内多湾调度：理论，算法和系统。 Springer International Publishing;2016，http://dx.doi.org/10.1007/978-3-319-26580-3。[2] Bello I，Pham H，Le V. Q，Norouzi M，Bengio S.神经组合优化与强化学习。2016，http://dx.doi.org/10.48550/ARXIV.1611.09940，URLhttp://arxiv.org/pdf/1611.09940v3。[3] ZhangC，Song W，Cao Z，Zhang J，Tan PS，Chi X.通过深度强化学习学习调度作业车间调度。Adv Neural Inf ProcessSyst2020;33：1621-32.[4] [10] 杨文，杨文.使用强化学习设计适应性生产控制系统。J Intell Manuf2021;32（44）：855-76。http://dx.doi.org/10.1007/s10845-020-01612-y网站。[5] [10] Van Ekeris T，Meyes R，Meisen T.通过深度强化学习从头开始发现车间调度的算法和元算法。在：生产系统和物流会议记录：CPSL 2021，第1卷。2021，第709-18页。http://dx.doi.org/10.15488/11231网站。[6] 吴晓鹏，王晓鹏，王晓鹏.强化学习在企业控制中的应用：基线、挑战和前进的道路。工程应用人工智能2022;C（112）。[7] 放大图片作者：Waubert de Puiseau C，Meyes R，Meisen T.基于强化学习的生产调度系统的可靠性比较研究。J Intell Manuf 2022;33（4）：911-27。http://dx.doi.org/10.1007/s10845-022-01915-2.[8] Sebastian Pol ， Schirin Baer ， Danielle Turner ， Vladimir Samsonov ，Tobias Meisen.实时约束下合作代理实现柔性生产控制的全局报酬设计。In ： Proceedings of the 23rd International Conference on EnterpriseInformation Systems-Volume 1：ICEIS，SciTePress，INSTICC; 2021，p.515http://dx.doi.org/10.5220/0010455805150526.[9] 萨顿RS，巴托A.强化学习：介绍，在：自适应计算和机器学习，第2版。剑桥，马萨诸塞州，伦敦，英格兰：麻省理工学院出版社; 2018年。[10]杨伟杰，王伟杰，王伟杰.使用Alzago Zero的钣金生产线。在：会议的生产系统和物流：CPSL 2020，第1卷。2020，第342- 352页。http://dx.doi的网站。org/10.15488/9676。[11] 放大图片作者：Monaci M，Agasucci V，Grani G.基于深度双递归代理的actor-critic 算法求解作业车间调度问题。 2021 ， http ： //dx.doi.org/10.48550/ARXIV.2110.09076，URLhttps://arxiv.org/pdf/2110.09076。[12] 罗山基于深度强化学习的柔性作业车间动态调度。 91.第91 章大结局http://dx.doi的网站。org/10.1016/j.asoc.2020.106208。[13] 张晓刚，王晓刚，王晓刚.学习在作业车间排程中归纳出分派规则。AdvNeuralInfProcessSyst2020;33：1621-32.http://dx.doi.org/10.48550/ARXIV.2206.04423，URLhttps://arxiv.org/pdf/2206.04423。[14] Sakr AH，Zelhassan A，Yacout S，Bassetto S.半导体制造系统中自适应调度的仿真和深度强化学习。 J Intell Manuf 2021;1 ： 1-14.http://dx.doi.org/10的网站。1007/s10845-021-01851-7，URLhttps://link.springer.com/article/10.1007/s10845-021-01851-7。[15]罗PC，熊HQ，张BW，彭JY，熊ZF。基于邻近策略优化的多资源IntJ ProdRes 2022;60 （ 19 ）： 5937-55 。 http://dx.doi.org/10.1080/00207543.2021 的网站。1975057.[16]张文龙，王文军，王文军.基于强化学习的作业车间调度问题。GitHub; 2021，URLhttps://github.com/dmksjfl/Job_Shop_Scheduling_Problem_with_Reinforcement_Learning.[17]Zheng L，Zijun L，Dai Y，Li X，Yuan B. Gymjsp. GitHub; 2022，URLhttps：//github.com/yunhui1998/gymjsp网站。[18]伊利亚斯博士 Auto-RL-Competition ： Dynamic Job Shop SchedulingProblemChallenge.GitHub;2022年，URLhttps://github.com/Dr-ilyassPHx/Auto-RL-竞赛。[19]Tassel P ， Willms P. JSSENV ： An OpenAi Gym environment for the JobShopSchedulingproblem..GitHub;2022，URLhttps://github.com/prosysscience/JSSEnv.[20]SamsonovV. 制造过程控制中的优化。GitHub;2021 ，URLhttps://github.com/v-samsonov/optimization-with-rl-in-manufacturing-control.[21]特贾斯维尼-梅迪RL_scheduling_system. GitHub; 2022，URL https：//github.com/tejaswini-medi/RL_scheduling_system.[22]放大图片作者：Marchand D，Rojo G. job-shop-scheduling：确定运行一组作业的时间表。 GitHub; 2015 ， URLhttps://github.com/dwave-examples/job-shop-scheduling.[23]samy-barrech作业车间调度问题GitHub; 2018，URLhttps://github.com/samy-barrech/Flexible-Job-Shop-Scheduling-Problem。[24]Zhang C，Song W，Cao Z，Zhan J，Tan P，Chi X. L2D：正式实施论文“通过深度强化学习学习调度作业车间调度 ” 。 GitHub; 2020 ，URLhttps://github.com/zcaicaros/L2D。[25]Kumar V. JobstellingRLenv：用Python编写的用于作业调度的强化学习环境。GitHub;2019，URLhttps://github.com/TimeTraveller-San/JobsellingRLenv.[26]van Ekeris T. Jobshop：Deep Reinforcement Learning（DRL）for JobshopScheduling Problems（JSP）--一个评估框架。2020年，URLhttps：//gitlab.com/tvanekeris/jobshop网站。[27]张文，张文辉.稳定-基线3：可靠的强化学习实现。J Mach Learn Res 2021;22（268）：1http://jmlr.org/papers/v22/20-1364.html[28]Eric Liang，Richard Liaw，Robert Nishihara，Philipp Moritz，Roy Fox，Ken Goldberg ， et al. Rllib ： Abstractions for distributed reinforcementlearning.In ： International conference on machine learning ， 2018 ， p.3053https://proceedings.mlr.press/v80/liang18b.html[29]Mnih V，Kavukcuoglu K，Silver D，Graves A，Antonoglou I，Wierstra D，用深度强化学习玩雅达利。2013年，URLhttps：//arxiv.org/pdf/1312.5602网站。[30][10]李晓，李晓，李晓，李晓.邻近策略优化算法。2017年，URLhttp://arxiv.org/pdf/1707.06347v2。[31]Brockman G，Cheung V，Pettersson L，Schneider J，Schulman J，TangJ，etal.Openai健身房。2016年，arXiv：arXiv：1606.01540。[32]比瓦尔德湖使用权重和偏差进行实验跟踪2020年，URLhttps：//www.wandb.com/网站。

下载后可阅读完整内容，剩余1页未读，立即下载