深度学习和强化学习保持智能电网灵活性的研究

87 浏览量更新于2024-01-22 收藏 1.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

能源与人工智能13（2023）100241通过深度学习和深度强化学习保持智能电网用电的灵活性Fernando GallegoSunday，Cristian Martín，Manuel Díaz，Daniel GarridoITIS软件学院，马拉加大学，马拉加，西班牙H I G H L I G H T S• 深度强化学习和深度学习保证能量灵活性。• 最佳DQN模型在90%的时间内实现了下一个小时的完整操作列表。• 利用新技术优化智能电网。• 鼓励使用分布式能源的新解决方案。G R A P H I C A L A B S T R A C TA R T I C L E I N F O保留字：基于多Agent的智能电网分布式能源A B标准智能电网概念是近年来发生的能源革命的关键。智能电网自出现以来一直存在于能源研究中。然而，来自不同能源、硬件功率或协同仿真环境的数据的稀缺性阻碍了它们的发展。随着基于多智能体的系统的发展，模拟不同能源的行为，真实的建筑物消耗，和模拟数据，蓄电池和车辆充电点，已经开放。这一发展导致了许多研究发表使用模拟和物理数据。所有这些调查表明，主要问题是机器学习算法不完全匹配实际行为，使用它们来复制要执行的不同操作是复杂的。本文旨在将行为预测方法与最先进的技术（如深度学习和深度强化学习）相结合，以模拟未知或关键的系统场景。智能电网的一个非常重要的因素是将消耗量保持在特定范围内的可能性（灵活性）。为此，我们利用Tensorflow库预测能耗和深度强化学习来选择要在我们的系统中执行的最佳操作。开发的平台足够灵活，可以包括智能电池、电动汽车等新技术，它面向实时操作，已应用于正在进行的实际项目，如欧洲ebalance-plus项目。1致谢：这项工作由H2020 ebalanceplus项目（赠款协议864283）和西班牙项目PY20_00788（“IntegraDos：通过云传感器集成为物联网提供实时服务”）资助。该项目还获得了欧盟地平线欧洲研究和创新计划的资助，该计划∗ 通讯作者。电子邮件地址： fgdc2f3@uma.es（F. Gallego），cristian@uma.es（C. Martín），mdiaz@uma.es（M. Díaz），dgm@uma.es（D.加里多）。1 Ebalance-plus：https://www.ebalanceplus.eu。https://doi.org/10.1016/j.egyai.2023.100241接收日期：2022年11月18日;接收日期：2023年1月25日;接受日期：2023年2月14日2023年3月2日在线发布2666-5468/© 2023作者。出版社：Elsevier Ltd这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可从ScienceDirect获取目录列表能源与AI期刊主页：www.elsevier.com/locate/egyaiF. Gallego等人能源与人工智能13（2023）10024121. 介绍随着分布式能源（DER）[1]的出现和储能系统（ESS）[2，3]的改进，随着智能电网领域的发展，寻求优化电网效率的新解决方案的必要性增加[4]，从而在满足系统消费者和能够消耗和产生能量的新设备（称为产消者）的需求的同时增加节能。这些解决方案必须解决组件通信（和系统安全）的挑战，以及各种方法的场景评估[5]。在当今的系统中纳入可再生能源这些电网依靠太阳能电池板、电池和其他发电机等小型能源来支持小型电力负载组。许多研究人员已经研究了在分布更有限的地方改进这些网格。这些解决方案不仅在经济层面上带来了好处，减少了向客户供应能源的中断次数（包括其他来源），而且还提高了能源效率并减少了停电。此外，这是一个符合绿色技术的建议，它减少了人类足迹、温室气体和对环境的破坏。它还允许更大的可扩展性，在各个级别提供可能的分形视图另一方面，不仅DER和ESS得到了改善，而且在组件以前是静态的，已知的，但新功能正在出现的部门也出现了变化，例如电动汽车的充电站。这些技术允许带有电池的汽车能够消耗和供应能量[8]，从而成为电网内管理的另一个组件。的变异性这些电网中的设备数量不断增长，要求所有开发的系统都具有灵活性，以解决其包容性问题。新电网组件的可用性增加了电源管理的复杂性。解决这个问题最有趣的方法之一是主动网络管理（ANM）[9]。ANM提供了控制潮流的可能性，以提供满足实时参与系统的消费者需求所需的电量[10]。该技术旨在增加包括可再生能源的系统的使用，例如风力涡轮机或光伏电池板，以及传统的能源供应方法，ANM在这种类型的系统中变得越来越普遍。这种方法解决了监测具有不同来源的能量的复杂系统的问题。然而，这种方法不允许预测关于要采取的动作的决定，使得很难为系统提供灵活性，其中可以在一系列峰值（消耗模式）之间维持消耗的时隙。为了找到一个智能的解决方案，积极管理电网的能量，在这项工作中提出了一个基于深度学习的预测和深度强化学习的网格行动优化平台。据我们所知，这是第一次在智能电网环境中使用这两种技术，结合每种方法的优点，预测回归问题上系统的未来消耗，其中这些算法因其性能而脱颖而出[11，12]，并优化可能的行动在下一个时间框架内执行，从而始终满足预期的消费目标，必要时减少或增加消费目标，并预测决策。具体地说，我们将解决管理由电池、电动汽车充电站和建筑物组成的网络的问题，用神经网络预测其消耗量，并用多智能体系统执行行动[13，14]。本文的其余部分组织如下：我们将在第2节中首先介绍必要的背景概念，然后在第3节中继续介绍平台的结构、操作和细节并在第4节中使用真实场景的用例来评估它们。最后，我们将对第5节和第6节中获得的结果进行评估和讨论。1.1. 相关作品在智能电网系统中，电网的主动管理是一种高效和高性能的方式，特别是那些包含各种能源（如可再生能源）的系统。[15]作者定义一个基于强化学习的框架，允许电网的管理人员在不需要这种类型的系统的广泛知识的情况下，他们可以部署一系列基于超参数我们的平台允许进行密切的模拟，但它是并根据下一季度时段的消费预测，预测决策过程，保证保持灵活性的可能性。在[16]中，提出了一种能够通过用户-供应商通信和实时电价来解决决策问题的分布式算法。其主要目标是保持能源供需平衡。在这种情况下，作者提出了一系列的策略，以满足用户另一方面，[17]中提出的方法涵盖了利用深度学习从系统获得的数据预测电气网络的行为。与本文的主要区别在于使用动态系统进行长期预测，而我们的预测侧重于短期，以便非常准确，并能够尽可能接近现实。研究人员[18]定义了智能电网组件之一光伏电池板产生的能量的预测模型，数学概率和气象数据。在我们的例子中，至少在这个时候，由于我们没有电池以外的能源，我们不预测系统的状态，而是在给定系统的情况下，我们寻求获得网络保持灵活性所需的消耗，尽管我们会像他们一样使用深度学习。在[19]中，作者提出了通过灰色模型和递归神经网络、长短期记忆（LSTM）的组合来提高预测未来负荷（在这种情况下是电动汽车站）的准确性。与前一篇论文一样，我们没有具体预测这些车辆的消耗，而是预测整个智能电网的消耗，并据此估计最佳行动，其中停放的电动汽车2. 背景2.1. 强化学习自强化学习开始以来，它一直是机器学习中因其巨大潜力而脱颖而出的领域[20]。它的主要优点在于在每一个时刻尽可能减少或详细说明问题的可能性，一组代理，其中每个代理可以依次由另一个代理的集合组成。这一特性使其出现在许多研究领域。其中第一个，也是成功突出其出色表现的一个，是游戏[21]，特别是国际象棋。然而，它并不是唯一的领域[22]，因此，它可以在机器人[23]和自动驾驶[24]中找到。所有这些领域都面临着模拟器能够模拟现有的问题，并与真实的物理模型工作涉及更高的成本，甚至更是与计算技术的进步。此外，在某些情况下，器械完全无法访问待评估的场景，这可能是因为其风险F. Gallego等人能源与人工智能13（2023）1002413或者因为环境无法达到这些条件。能够模拟其在这种情况下的行为的数字模型允许探索它们并获得有关要执行的操作及其可能后果的知识，能够预测决策中的选项，这是一个由强化学习解决的复杂问题。在智能电网中，定义有效的，最重要的是，可靠的算法来解决决策问题变得更加复杂。这是因为电网正处于转型时期，包括新的、更可持续的组件，如可再生能源或储能系统。最初，许多系统基于物理模型，评估日常面临的真实场景。下一步是开发由物理和数学模型组成的系统，后者通过一系列方程定义，通常由制造商提供或通过物理设备的结果获得。对预测未来行为的精确模型的需求导致了智能电网环境模拟的突破，重点是两种并行的方式。第一个试图用自动学习模型预测他们的行为：自回归，自回归积分移动平均（ARIMA）[25，26]，季节性自回归积分移动平均（SARIMA），Prophet或（LSTM）[27，28]，基于深度学习。它们都是高效的算法，特别是当有大量数据可用时;然而，在数据是稀缺的，他们的模拟是远离真实的行为。在本文中，我们将主要关注后者，LSTM，稍后将详细介绍。本文中使用了强化学习来获得最佳动作以保证灵活性。这条线具有很好的性能，特别是当组件的操作已知时，无论是否有足够的数据可用[29]。如果每个代理都详细了解，就可以设计环境，因此问题将传递到解决方法。这些方法不断发展，越来越多的选择可用于解决多智能体问题[30]。他们都寻求获得最大的回报，从一开始到最后通过一系列的行动。这些方法主要分为分为两组：价值迭代V（s）和策略迭代V（s），它们依次为on-policy和off-policy。这两种算法都提供了很好的结果，尽管最常用的是策略迭代，因为它倾向于在更少的迭代中收敛。前者以贪婪的态度寻求回报，理解最佳策略不是它所拥有的策略，而后者更新当前策略，因为它认为它是最佳策略。最近，Q学习算法[31]，一种基于策略迭代和离线策略类型的开发，由于新论文使用了一种新方法，深度强化学习[32，33]，已经获得了一些相关性。这样的发展已被用作本文中提出的平台的优化方法（图1）。①的人。具体来说，我们的解决方案集中在一个称为深度强化学习的概念上，这个概念最近被广泛使用，我们将在下一节中解释。这种方法主要用于智能电网的安全部分[34，35]。它还被用于评估电动汽车所需的最佳负载，同时考虑到当时的交通状况[36]。2.1.1. 深度强化学习深度强化学习包括将基于神经网络的技术应用于用强化学习建模的问题（图1）。2）的情况。通过此过程，代理执行的操作在网络的神经元中分解，为策略迭代中看到的每个方程赋予权重：V（s，n）和V（s，n）。为了使这些权重接近最佳权重，需要进行训练。在每一步中，要执行的操作都是通过根据奖励用神经元的经验对神经元进行加权来使用深度Q网络（DQN）代理的当前策略进行评估的一旦指示执行的步骤数，我们评估并获得当前奖励。它们的优势在于目前可用的高计算能力，易于访问，以及神经网络在其中具有的出色性能，能够比其他类型的算法更早地探索许多基于Deep Mind [37]显示的大量结果，出现了一条具有巨大潜力的新开发路线。这种技术包括从重复的经验中学习，在任何时候都训练算法哪些行为会有最大的回报。起初，它似乎仅限于一些动作的问题;然而，它已经适应了解决一些高度复杂的问题，如国际象棋。然而，尽管如此，还必须指出，这是一种仅限于某类问题的解决办法，并不适用于所有问题，特别是在满足要求的解决办法不充分的情况下，只有最佳的解决办法才是有价值的。此外，为了应用强化学习，有必要明确和详细地定义系统中涉及的所有组件，它们可以执行的操作，知道不详细的操作在任何时候都不会被考虑，以及每个组件将获得的奖励。在智能电网的情况下，它需要足够的知识，电气网络中涉及的设备定义它们可以执行的不同干预，将问题限制在评估的上下文中。在我们的案例中，我们评估了由容量为120 kW的蓄电池和三种不同充电和放电选项组成的环境，允许充电和放电高达15 kWh的V2G型电动汽车充电站，从而能够使用车辆的电池作为电网的注入，以及建筑物的空调系统，我们将在第4节中详细介绍（图4）。 3）。2.2. 深度学习自从它与简单的感知器一起出现以来[38]，人们已经可以观察到它的巨大潜力。然而，直到21世纪，随着技术的进步以及计算能力的提高，它才被大量使用。这个领域对于其他不太密切相关的领域的发展非常重要，例如医学[39]，民用基础设施[40]，安全[41]或机器人[42]。这些算法的使用是由于它们提供的高性能[43]，前提是有足够的数据可用。主要用于培训。这种类型的模型在智能电网领域的有用性涵盖了广泛的机会和挑战，这些机会和挑战缺乏解决方案或其解决方案没有预期的结果无论是开发成本高，还是行为与真实相差甚远，抑或是执行时间不合适，其中一个挑战主要是神经网络在网络安全或需求预测方面的应用，这是一个与深度学习密切相关的领域，尤其是近年来。这种联系是由于这两个领域近年来的显著繁荣，而深度学习的改进通常会导致研究其对智能电网的影响。随着第一个全连接模型[44]的出现，实现了电网组件行为的极大近似。在卷积层的发展之后，这些近似值甚至更大[45]。目前，递归神经网络，即来自较高层的输出可以为前一层的神经元提供信息的网络，在计算对象的行为时获得了很好的结果[46]，这些对象的趋势是以只有每个强度变化的方式在季节中重复[47]。在这项研究中，我们将使用完全连接的网络和长短期记忆来预测由建筑物，外部电池和电动汽车F. Gallego等人能源与人工智能13（2023）1002414Fig. 1. 最优策略获取。图二. 深度强化学习图三. 基于多Agent的系统环境。充电站，配备有对建筑物电池进行充电和放电的能力。选择这些模型主要是因为LSTM是一种算法，它使用较高层或同一层的输出作为输入，设法生成一定的内存。这个网络在许多工作中，当试图优化预测时，以及当前值与通过网络的最近值之一之间存在关系时，它表现出出色的性能[48，49]。另一方面，我们也将使用完全连接的模型，因为尽管没有内存，F. Gallego等人能源与人工智能13（2023）1002415∑= ， ��A =��快！（−）||见图4。平台架构。我们使用Grafana平台随时监控所选不同模型的结果，从而使我们能够实时评估它们。在这个平台中，只检查下一个小时的值，因为它很可能在预测中具有最大的离散度，尽管所有的预测值都被存储用于误差的测量。为了评估消费预测模型，均方误差（MSE）和预测数据与实际数据的绝对值之差（MAE）都被选中。这两个指标对于优化逻辑回归非常有效时间序列模型。第一个显示了我们的模型关于实际消费行为的预测之间的变化，而第二个是一个更平滑的度量，在这个意义上，它不会像MSE那样惩罚这种差异。此外，还添加了归一化MSE（NMSE）和归一化MAE（NMAE），以确定问题中现有差异的大小图五. 关于500个滞后，在一刻钟内获得的消耗量的自相关性。他们取得了巨大的成果。所有这些都将在第4节中详细介绍和举例说明，其中将使用真实用例对平台进行评估3. 平台部署该系统的主要目标是获得在随后的一刻钟时隙中执行的一系列操作，从而提供保持能源灵活性和系统组件的最佳规划的可能性。灵活性意味着在任何特定时刻保证消费在既定阈值内，称为消费模式，尽可能长。为了实现这一目标，该平台两个主要组成部分（图）。4）.其中第一个是负责消费在接下来的时间段。为此，有必要监测1∑（−��）21∑−��−��−��由此获得的结果将在下一节中讨论一旦获得了以下时段的消耗预测，并且建立了消耗模式（表示系统容限的百分比），则第二个组成部分已被定义。这包括基于多代理的系统的设计，该系统允许在知道将在该时间间隔内保持灵活性的行动的同时解决决策问题。为此，开发了一个由系统中涉及的每个组件A =101，102，103...��中国（2）动作的总和由“n "除以”i“的组合之和限定��与此最密切相关的变量的消费后∑（��，��）→（��，��）=��！��（三）季节和当前日期是最相关的特征，在与消费变量的相关性中具有较高的值。通过将输入分解为当前日期（年、月、日、小时、分钟、秒和星期几），对生成的数据进行了预处理。此外，使用自相关性探讨了当前数据中先前消费值的相关性。结果表明，所有384个记录（4天 * 24小时 * 每小时4个记录）都与这个值有关，特别是前四天，因为它们在四分之一小时的范围内（图11）。5）。从这一点开始，我们研究了在预测以下值方面表现更好的深度学习模型，修改了环境定义需要尽可能多的系统知识，因为以动作和奖励的形式提供的信息越详细，其行为就越精确，这可能是可扩展性方面的限制。接下来要定义的是对环境的观察。观察被理解为系统已知的那些变量，并影响下一个动作的决定，在我们的情况下，下一个时间段。最后，从期望消费的差异（总是负的）出发，探索了定义奖励的不同方法，并得出问题以以下方式更快收敛：层的数量和每层的神经元的数量或网络，经常性或完全连接。模型的部署−1为��日本+1{{\fnTahoma\fs10\bord0\shad0\1cH00FFFF}{\3cH000000}{\fnTahoma\fs10\bord0\shad0\1cH00FFFF}{\4cH000000}{\fnTahoma\fs10\bord0\shad0\1cH00FFFF}{\3cH000000}（一在我们的情况下，第一次评估已经确定天气，F. Gallego等人能源与人工智能13（2023）1002416=��1000��+1= 1（四）使用Tensorflow框架。选定模型=0��≠��+1= −�� (�� − )��是那些在深度学习中在回归问题的解决中脱颖而出的人，包括递归和卷积网络[50]。可以看出，预期消费和实际消费之间的差异，在绝对值上，F. Gallego等人能源与人工智能13（2023）1002417见图6。深度Q-Network架构。除非它是一致的，在这种情况下，它将是1。这一进程将直到预测的最后一步（N）。一旦完整的多智能体系统被定义，不同的算法，可以解决这个问题进行了探索。首先，研究了采用Q-学习这一高性能强化学习算法然而，由于深度强化学习最近显示的结果[51]，决定使用DQN。该算法是作为Q学习的进化而诞生的，因为它通过将其与神经网络相结合来解决这个问题。这种求解多智能体系统的方法为系统的每次迭代赋予权重，由神经网络训练的当前状态表示，修改初始Bellman方程[52]（k，k）=��+��′（��′，��′）到下面的（��，��;��）=��+��′（��′，��′;��）。鉴于我们使用Tensorflow进行预测，并且该库支持多智能体系统，因此它也用于第二个组件（TF-智能体）。DQN的结构可以在图中看到。六、该网络将系统可以通过的不同状态作为输入，并且通过测量网络的隐藏层中的不同神经元的权重，获得系统可以执行的“n”个动作之一作为输出，在网络上映射具有Q表的行的通过这种方式，它将使用网络的权重，为系统所经历的每个状态此外，有必要提及DQN模型实现的一个关键组件，即经验重复缓冲区。该组件允许存储最新的经验并对其进行采样以供培训期间使用最后，通过统一这两种方法，我们得出结论，根据前四天的数据，我们可以预测下一个小时要执行的操作，最佳情况是使用以下工作流程，如图所示。7 .第一次会议。见图7。系统工作流程。工作流程的第一步是收集最新的气象和消费数据。之后，加载预先训练的模型，并进行预测，该预测与用户输入的消费模式一起传递到多代理系统环境。在定义多代理系统的环境时，有必要了解每个组成部分所执行的操作，并详细说明每个操作的结果。此外，奖励对于每一个，必须指定输出条件。有必要澄清的是，对于每个用例，环境开发必须与所涉及的代理的相应实现一起进行。从这一点开始，环境将使用这些值进行定义，训练DQN模型。最后，获得要在随后的时隙中执行的动作的集合。如果模型找到了解决方案，将列出每一个被发现对一刻钟时隙最优的操作。如果没有找到解决方案，算法将指示所有动作，直到到达不可能的时隙，可以理解，然后，在新的预测更容易满足的情况下，需要具有更灵活的消耗模式或具有更新的数据的新的执行。未能实现最佳解决方案将被记录为一个大的负奖励，并通过采取的步骤数来衡量。在这通过这种方式，我们可以检测到模型没有找到解决方案的情况，以便进一步评估和分析。为了促进数据可视化，开发了一个界面（图1）。8）。在上半部分，是建筑物的最新记录F. Gallego等人能源与人工智能13（2023）1002418见图8。消费和行动完成可视化界面。可以看到消耗和消耗和模型预测的历史。下半部分根据指定的消耗模式，列出了对以下一刻钟时段要执行的操作。此外，界面还有两个视图，一个用于下一个24小时的消耗预测，另一个具有消耗预测中的模型误差的历史。通过这个界面，用户可以很容易地可视化当前的预测和系统中要执行的操作。4. 研究病例本文研究的平台开发的用例是欧洲ebalance-plus项目。该项目是作为一个解决方案诞生的，涉及零售市场分布式电网选项的灵活性。它旨在提供与智能相关的解决方案，网格技术，以促进一个新的市场。Ebalance-plus有四个演示：• 意大利卡拉布里亚大学。技术研究，以增加能源的灵活性，网络自动化过程，和故障控制恢复技术。• 法国朱尼亚大学。现有系统与项目中实施的新技术• 丹麦日德兰半岛。度假屋用于优化网络负载和改善本地分布。• 西班牙马拉加大学。大学综合体由四栋建筑组成，包括两个能源解决方案，一个在建筑层面，一个在地区层面。在我们的例子中，我们将集中在后者，重点是创建一个直流微电网，虽然这个想法是扩大发展到其余的示威者。该系统的组成部分是蓄电池、电动汽车充电站和艾达·拜伦研究中心大楼的消耗量这座建筑属于马拉加大学，里面有私人公司和公共研究小组。它有五层，一个可用的面积总建筑面积6492平方米，平均每天入住人数42人，年用电量约1，154，264千瓦时。它的主要能量消耗包括空调的操作，这是一个被模拟以评估要采取的行动的代理。由于只有建筑物的实际消耗量和其他组成部分的操作规范可用，因此模型已被F. Gallego等人能源与人工智能13（2023）1002419见图9。 Ebalance-plus组件研究案例。根据这些要求开发，以模拟其行为，并在安装之前探索未来的场景（见图 9）。人们已经探索了各种模型，寻找那些可以提供更好性能的模型，增加层数，神经元数量或网络类型。该测试选择的模型是一个简单的稠密模型，一层64个神经元，两个复杂的稠密模型（一个复杂的单层模型， 1024 个神经元，另一个两层模型， 512 个神经元），一个SimpleRNN和一个LSTM。所执行的训练具有不同的epoch数，检测到过度训练发生在密集模型中从8000 epoch开始，并且在递归模型中从3000epoch开始。一旦模型通过上述预处理进行了训练，我们就可以预测以下四个季度的消费量。在培训中，我们使用了配备两个GPU的设备，其中一个使用Tesla V100，另一个使用RTX 3090。下一步是多代理系统的开发。这些组成部分是上述三个组成部分，剩下的可能行动如下：• 建筑– 进行微小的温度变化– 执行大的温度变化– 关闭空调（默认）• 电池– 充电36 kWh– 充电24 kWh– 充电12 kWh– 放电36 kWh– 24 kWh– 放电12 kWh– 无（默认）系统在每次迭代中可以执行的操作集总共有51个操作，因为其中一些操作不能同时执行。经验重复缓冲区已初始化为100，000的大小，并且已修改训练期间的迭代和评估次数。这种方法使得有可能获得系统中所涉及的组件的动作列表，该系统保持电力网络的灵活性，从各种来源（例如电动汽车充电站）供应和消耗电力。它还开辟了包括的可能性，在未来，额外的可再生能源作为发电机，而不需要付出很大的努力和解决一个最常见的问题，即网络的主动管理，同时保持消费过程中的灵活性。我们的平台允许预测消费模式算法的开发人员找到如何保证灵活性的方法，只需要输入这些数据并自动获得最大化季度时隙的一组动作。此外，它还作为API Rest提供预测或操作，以防您希望基于根据这些数据或决定（图）。10）。代码可在我们的repos-暂时与其正确执行的指示。2此外，它已部署在Docker容器中，以扩展应用程序并为系统提供一致性。但是，由于它处理的是私人消费数据，因此需要凭证才能使用其功能。34在第5节中，我们将研究和分析每一项研究所获得的结果的平台组件。5. 结果和讨论一旦定义了所选的指标来评估不同模型的性能（其结构见表1），我们将评估每个模型的性能。用于模型的时期有所不同，因为循环网络比完全连接的网络更早达到过拟合。• V2G电动汽车充电站2 Github：https://github.com/ertis-research/MultiAgentSystem。– 消费标准.– 放电– 无（默认）3https://hub.docker.com/repository/docker/fernandogallego/mas-平台第https://hub.docker.com/repository/docker/fernandogallego/mas-trainingF. Gallego等人能源与人工智能13（2023）10024110表1见图10。与ebalance-plus中间件的平台集成。表4使用神经网络架构。神经网络隐藏层Epoch基本密集型64 8000复杂密集型512 ×512 8000复杂密集型2 1024 8000SimpleRNN 64 ×64 ×32 3000LSTM 64 × 64 ×32 3000表5通过修改总步长来提高多DQN训练的准确性。名称总步数精度型号1 50 25%型号2 100 25%型号3 500 100%型号4 1000 100%表2从最近500个条目的度量中获得的值。最后注册MSEMAENMSENMAE基本致密242.79 8.40 108.65 5.10复杂致密57.23 3.70 22.43 2.02复杂密集型2 121.63 5.09 50.22 3.05简单RNN 6.44 1.45 1.77 1.36LSTM 5.90 1.40 1.64 1.13表3从最近150个条目的度量中获得的值。最后注册MSEMAENMSENMAE基本致密102.88 8.01 60.03 5.01复杂致密38.74 4.47 17.78 2.37复杂密集型2 76.28 6.96 42.32 4.21简单RNN 3.12 1.25 1.27 0.66LSTM 2.33 1.18 1.28 0.72最后500条记录的结果如表2所示。基本的密集网络在预测以下四个一刻钟时段的消费方面远非最佳。另一方面，全连接复杂网络更接近真实值，尽管经常性模型是最接近的。SimpleRNN和LSTM实现了高性能，允许它们的组合用于预测下一个小时的消费值，这些值几乎与它们的实际值相同。通过实施在线学习，模型的性能变得越来越好，如图1A和1B所示。图11和12表示NMAE和NMSE最后两天获得的误差（见表3）。通过修改模型4的总步骤，不同消耗模式的多次迭代错误。模式缺点总步骤准确度时间（s）7.5% 100 90% 2.627.5% 1000 100% 11.507.5% 10000 100% 230.1510% 100 85% 2.5710% 1000 100% 11.5110% 10000 100% 228.5820% 100 95% 2.6320% 1000 100% 11.5320% 10000 100% 230.1530% 100 100% 2.6530% 1000 90% 11.5030% 10000 100% 232.71为了量化在线训练所带来的改进，我们获得了模型的性能，但仅针对最后150条记录。在这350次测量中，模型成功地将密集网络和递归网络的误差减少近一半。这些伟大的结果使我们能够获得可靠的预测，为此，我们使用了SimpleRNN和LSTM这两个最准确的模型之间的平均值来预测多智能体系统的决策。另一方面，一旦我们有了一个预测，如我们所见，误差很小，我们就评估了多智能体系统在获得DQN要执行的动作、修改要采取的步骤和消费模式时的行为（表4和表5）。它值得一提的是，F. Gallego等人能源与人工智能13（2023）10024110见图11。最后192条记录的NMAE。见图12。最后192条记录的NMSE。图13岁每步总精度取决于模式消耗。F. Gallego等人能源与人工智能13（2023）10024111表6图十四岁每个总步骤的训练执行时间取决于模式消耗。这项工作的主要局限性与该系统平台中使用的模型的整体性能。神经网络NMAE DQN模型精度平均值LSTM 0.72 Model 4 96，66%后一种模型的性能非常好，对于消费模式达到90%的准确度，并且只有100步，从而将其执行时间减少到2.62秒，并且之前只训练了1000步，这是一个低值。这种准确性可以被增加到100%，但是，反过来，将增加其执行时间，并且知道该预测是针对下一个直接小时设计的，它将是没有兴趣，如果它需要太长的时间（图。13）。20.0%消费模式的表现达到峰值是因为，在训练迭代中，它没有获得最优值，其结果与其它方法接近此外，已经观察到，通过将步骤的总数乘以10，执行时间上升到11秒，并且如果将其乘以100，则动作的估计花费大约4分钟。此外，消耗模式通常不会影响执行时间，但它确实降低了算法找到解决方案的可能性，因为它是一个更严格的要求（图1）。14）。该模型的整体性能，包括最佳预测模型（LSTM）和优化模型（模型4），可以在表6中看到。6. 结论本文的重点是将深度学习与强化学习相结合，使用基于多智能体的系统对智能电网进行主动管理。这类系统必须处理多个分布式数据源，传统的机器学习技术无法按预期工作。智能电网的一个关键要素是用户在一段时间内将用电量保持在特定范围内所能提供的灵活性。我们的系统预测能源消耗，并尝试选择在接下来的时间间隔内执行的最佳操作。使用这些信息，我们的解决方案可以指示可以为系统的其他元素（例如能量算法）提供多大的灵活性。所提供的结果表明，这种解决方案，这是在欧洲项目ebalance-plus的实时系统中使用的可行性。在这一点上，我们的主要目标是继续对平台进行改进，以提高其可扩展性和灵活性，例如通过强化学习而不是DQN算法来解决问题。由于环境的定义而具有可伸缩性。由于需要一个精确的环境规范，该平台将不能保证在组成不是所使用的组件的系统中获得良好的结果。为了解决这一限制，我们想开发修改这将允许对环境进行更动态的定义，并为平台提供可伸缩性。竞合利益作者声明，以下经济利益/个人关系可能被视为潜在的竞争利益：Fernando Gallego Donoso报告称，Horizon Europe提供了财务支持。费尔南多·加列戈·多诺索报告说，安达卢西亚政府提供数据可用性数据将根据要求提供。引用[1]放大图片作者：Akorede MF，Hizam H，Pouresmaei E.分布式能源和对环境的好处。Renew Sustain Energy Rev 2010;14（2）：724[2] Xu G ， Yu W ， Griffith D ， Golmie N ， Moulema P. Toward integratingdistributed energy resources and storage devices in smart grid.IEEE InternetThingsJ2017;4（1）：192-204.http://dx.doi.org/10.1109/JIOT.2016.2640563网站。[3]Tushar W，Chai B，Yuen C，Smith DB，Wood KL，Yang Z，et al.智能电网中分布式能源的三方能源管理。IEEE Trans Ind Electron 2015;62（4）：2487-98.http://dx.doi.org/10.1109/TIE.2014.2341556网站。[4]李伟，罗明，朱立，蒙蒂A，庞奇F. 一种联合仿真方法，用于基于MAS的电力保护和通信的联合分析和设计。Simulation2013;89（7）：790-809.[5]Siano P.需求响应和智能电网-调查。更新可持续能源Rev 2014;30：461-78.http://dx.doi.org/10.1016/j.rser.2013.10.022网站。[6]Ghorashi Khalil Abadi SA，Habibi SI，Khalili T，Bidram A.直流微网混合储能系统性能改进的模型预测控制策略。 IEEE Access 2022;10 ： 25400-21.http://dx.doi.org/10.1109/ACCESS.2022.3155668.[7]Mutarraf MU，Guan Y，Terriche Y，Su C-L，Nasir M，Vasquez JC，et al.分层控制混合舰载微电网的自适应功率管理。 IEEE Access 2022;10 ： 21397-411.http://dx.doi.org/10.1109/ACCESS.2022.3153109网站。[8]Sovacool BK，Hirsh RF.超越电池：研究插电式混合动力电动汽车（PHEV）和车辆到电网（V2G）过渡的好处和障碍。能源政策2009;37（3）：1095-103。[9] Pérez-OlveraJ， Green TC，Junyent-Ferré A.主动网络管理的自学习控制。在：2021 IEEE马德里PowerTech.^P.1比6 网址：//dx.doi.org/10.1109/PowerTech46648.2021.9494928网站。[10] Gill S，Kockar I，Ault GW.有源配电网动态最优潮流。IEEE Trans Power Syst2014;29（1）：121-31. http://dx.doi.org/10.1109/TPWRS.2013.2279263。F. Gallego等人能源与人工智能13（2023）10024112[11] [10]高莉，刘婷，曹婷，黄Y，拉德马赫.比较用于多种类型建筑物的多能量向量预测的深度学习模型。应用能源 2021;301 ： 117486.http://dx.doi.org/10.1016/j.apenergy.2021.117486，URLhttps://www.sciencedirect.com/science/article/pii/S0306261921008734。[12] 林林，高林，Kedzierski MA，Hwang Y. 流动沸腾的一般模型基于新神经网络结构微肋管传热研究能源AI2022;8：100151。http://dx.doi.org/10.1016/j.egyai.2022.100151，URLhttps://www.sciencedirect.com/science/article/pii/S26

下载后可阅读完整内容，剩余1页未读，立即下载