网格交互式建筑中的强化学习挑战

139 浏览量更新于2024-01-22 收藏 1.46MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

能源与人工智能10（2022）100202多智能体强化学习网格交互式建筑Kingsley Nweyea，Bo Liub，Peter Stoneb，Zoltan Nagya，a智能环境实验室，土木，建筑和环境工程系，得克萨斯大学奥斯汀分校，301 E。迪恩·基顿街，ECJ 4.200，Austin，78712-1700，TX，USAb德克萨斯大学奥斯汀分校计算机科学系，2317 Speedway，GDC 2.302，Austin，78712-1700，TX，USAG R A P H I C A L A B S T R A C TH I G H L I G H T S• 为网格交互式建筑提出现实控制挑战• 应该比较算法在这些挑战中的性能• 使用CityLearn学习离线学习挑战。• RL控制器的性能在很大程度上取决于RBC控制器的品质A R T I C L E I N F O保留字：标杆管理强化学习A B标准基于先前的研究，强调了建筑控制研究标准化环境的必要性，并受到最近引入的现实生活中强化学习（RL）控制挑战的启发，在这里，我们提出了网格交互式建筑（GIB）中RL控制的九个现实世界挑战。我们认为，在这一领域的研究应该表示在这个框架中，除了提供一个标准化的环境，可重复性。先进的控制器，如模型预测控制（MPC）和RL控制有优点和缺点，阻止他们在现实世界中的问题实施。两者之间的比较是罕见的，而且往往是有偏见的。通过关注这些挑战，我们可以研究控制器在各种情况下的性能，并进行公平的比较。∗ 通讯作者。电子邮件地址：nweye@utexas.edu（K. Nweye），bliu@cs.utexas.edu（B. 刘），pstone@cs.utexas.edu（P.斯通），nagy@utexas.edu（Z. Nagy）。https://doi.org/10.1016/j.egyai.2022.100202接收日期：2022年6月2日;接收日期：2022年9月6日;接受日期：2022年9月7日2022年9月11日网上发售2666-5468/© 2022作者。由爱思唯尔有限公司出版。这是一篇开放获取的文章，获得了CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可从ScienceDirect获取目录列表能源与AI期刊主页：www.elsevier.com/locate/egyaiK. Nweye等人能源与人工智能10（2022）1002022作为演示，我们在CityLearn（一个OpenAI Gym环境）中实现了离线学习挑战为了在需求响应设置中容易地实现RL代理，以通过控制区域中不同建筑物集合的能量存储来重塑电力需求的聚合曲线。我们使用CityLearn来研究不同层次的领域知识和RL算法的复杂性的影响，并表明，在离线训练期间向RL代理提供固定日志的基于规则的控制器（RBC）中使用的操作序列（SOO）在根据一组四个能量灵活性度量进行评估时影响代理的性能。来自优化RBC的更长时间的离线训练导致长期性能的提高运行.在简化RBC的日志上训练的RL代理会随着离线训练时间的增加而面临性能下降的风险。我们还观察到代理之间的信息共享对性能没有影响。我们呼吁研究界进行更多的跨学科努力，以应对现实世界的挑战，并释放GIB控制器的潜力1. 介绍建筑物占全球能源消耗的40%，减少30%的相关温室气体排放，同时还提供50-90%的二氧化碳减排潜力[1]。最佳脱碳需要最终用途的电气化和随之而来的电力供应脱碳，有效利用电力进行照明，供暖，通风和空调（HVAC）和生活热水发电，以及建筑物热性能的升级[2]。电网脱碳的一个主要驱动力是将可再生能源系统（RES）集成到电网（供应）中，以及将光伏系统和太阳能集热器集成到住宅和商业建筑中（需求）。电动汽车（EV）具有存储容量和固有的连接性，具有与建筑物集成的巨大潜力[3]。然而，在运行期间必须仔细管理这种电网建设集成，以确保电网的可靠性和稳定性[4- 6 ]（图10）。①的人。Fig. 1. 网格交互式建筑需求响应（DR）作为一种能源管理策略，使消费者和产消者能够通过削减负荷、随时间推移改变能源消耗或在特定时间发电和储存能源来降低能源消耗，从而为电网提供灵活性（图1）。作为交换，消费者和产消者通常会减少能源账单[7]。 HVAC可以帮助通过修改温度设定点，参与通过预热或预冷建筑物的负荷转移，[8]（被动能量存储），或通过将热能直接存储在能量存储系统中（主动能量存储）。具有DR功能的恒温器可以通过允许电力零售公司在峰值需求事件期间调整设定点来为住宅客户提供节能。通信技术的广泛集成允许所有相关系统（PV、HVAC、存储、EV、恒温器等）交流其运行信息，从而形成智慧城市的概念，使城市实现节能，并变得更加可持续[9]。先进的控制系统可以通过自动化能源系统的运行，同时适应居住者和建筑物的个人特征，成为DR的主要驱动力。但是，对于DR来说，有效的负荷控制必须以一种反应灵敏、适应性强和智能的方式进行。当所有的电力负载同时对相同的信号作出反应时，聚合的电力峰值可以被移动而不是被削去。因此，需要更高效和更有效的方法，协调上述所有技术的响应先进的控制算法，如MPC [10]和深度RL [11]已被提出用于各种建筑物控制应用。虽然这两种方法都有其缺点，例如，MPC需要一个模型，而RL是数据密集型的，在过去的几年中已经提出了壮观的应用和结果此外，最近，基于物理约束神经网络模型的混合方法已经开始出现[12]。与MPC相比，RL是一种自适应和潜在的无模型控制算法，可以利用实时和历史数据来提供DR能力。RL是一种基于代理的机器学习算法，其中代理通过与其环境的交互来学习最佳动作[13，14]。与监督学习相比，智能体不会接收大量的标记数据来学习。与无监督学习相比，智能体从环境中接收延迟的反馈。简而言之，对于给定的输入，代理选择执行某个动作。然后，它观察到来自环境的即时或延迟的奖励信号，并使用它来修改其关于在给定情况下最好采取哪种行动的知识。强化学习可以分为单智能体强化学习（SARL）和多智能体强化学习（MARL）。SARL被形式化为马尔可夫决策过程（MDP），其中代理对控制环境进行操作，而MARL通常被描述为马尔可夫博弈（MG），其中多个代理在同一环境中交互。SARL遵守MDP的平稳性条件，但在MARL中，受控环境中多个代理的相互作用导致部分观测，可能违反MDP平稳性条件[15]。然而，MARL更适合于具有高维状态和动作空间的环境，这些空间需要代理之间的合作或竞争的概念，这是GIB社区的有了MARL，网格级目标例如削峰和斜坡减小。DR中RL的一个主要挑战是比较算法性能的能力[4]。如[16]中所述[需要建立代表性环境的共享集合，以便]系统地比较和对比[。. . ]构建优化算法[.. . ]中。因此，在[16]的基础上，并受[17，18]的启发，本文的目的是双重的。首先，我们介绍并讨论了我们的社区应该关注的GIB的具体现实挑战。其次，我们演示了挑战8（C8）：使用CityLearn环境从外部行为策略的固定日志进行离线训练[19]。本文的组织如下：第2节介绍了GIB在现实世界中面临的九个挑战，第3节介绍了RL和CityLearn的背景。在第4节中，我们提供了一个解决C8问题的框架，并使用案例研究数据集提出了解决上述挑战的结果。结果和结论的讨论见第5节和第6节。K. Nweye等人能源与人工智能10（2022）1002023[∑2. 现实世界的挑战Dulac-Arnold等人为RL提供九个现实世界的挑战，[17]并在[18]中规定了一套环境，可用于对解决挑战的算法进行基准测试。然而，[18]中的环境不适合评估GIB，因为它们基于小规模环境，没有必要的领域知识或上下文。在下文中，我们在GIB的背景下提出了九个挑战，并以斜体字提供了[18]的描述。C1：能够从有限的样本中学习实时系统：在这个挑战中，控制器被随机初始化，并且必须学习只根据它观察到的样本来执行。通过仅向控制器呈现数据的子集，可以人为地减小样本大小，例如，每三小时一次，而不是每 15分钟这些算法可以根据它们在时间或样本数量方面收敛的速度以及它们的探索有多稳定来评估。相反，我们可以评估数据需求和控制器性能之间的权衡。C2：处理系统执行器、传感器或反馈中的未知和潜在的大延迟：建筑物的热动力学是这样的，即控制器调整HVAC系统的动作的效果在延迟中被观察到这意味着，例如，建筑物的预冷却/加热，以利用建筑物的热质量。控制器需要隐式地和自动地学习建筑物的动态应创建具有从轻到重的不同热质量的挑战数据集，并且应比较收敛控制器以了解反馈中较长延迟（较高热质量）与控制器性能之间的关系。C3：在高维状态和动作空间中学习和行动：这个挑战解决了所提出的控制器的可扩展性。由于建筑物可以固有地具有大的状态-动作空间，因此可以在它们的特定子集上评估控制器以了解性能如何变化。在控制多个建筑物（或建筑物内的多个区域）的情况下，可伸缩性是指实质上增加建筑物（或区域）的数量并观察控制性能。C4：关于系统限制的推理，这些限制永远不应该或很少被违反：这是一个核心挑战，因为建筑控制问题实际上经常被视为在减少能源使用与保持舒适条件之间的平衡。能量系统中的其他约束是可操作的，例如确保最小充电状态（SOC）和将操作温度维持在限制内。应该根据学习过程中的违规次数和收敛策略来评估算法。将约束违反整合到目标函数中在下面的C6中解决C5：与部分可观察的系统交互，这可以被视为非平稳或随机的系统：这个挑战有两个部分。在第一部分中，可以修改观测值以包含故障（传感器噪声、丢失数据等），这在任何现实生活系统中都是常见的，如建筑物和HVAC系统。然后，我们观察算法在各种故障水平下的性能（更多的噪声，更多的丢失数据）。在第二部分中，我们可以观察控制器如何能量使用）以及多个本地目标（设备操作）。如C4中所述，约束可以直接并入目标函数。在评估控制器性能时，应将各个目标分开，以便进行公平比较。C7：能够快速提供操作，特别是对于需要低延迟的系统：延迟是由于长计算时间而在获取测量后执行控制操作的延迟。如果系统动力学速度快或计算时间长，则现实生活中的系统可能会发生延迟。智能建筑和微电网的一个实际例子是，如果计算是在云中进行的，那么数据传输也会增加执行时间，这可能会因连接问题而加剧。为了观察延迟的影响，不同长度的时间步长延迟应该应将其纳入控制执行，并评估其对绩效的影响。C8：从外部行为策略的固定日志离线训练：这里的挑战是从生成的数据中学习控制律通过次优参考控制器，例如，RBC，通常可用，本质上是系统日志。除了控制环境之外，各种大小的数据集，例如，应提供两周、一个月和六个月的样本，这些样本是用已知的参考RBC生成的。然后，可以评估控制器改善这些基线的能力C9：为系统操作员提供可解释的策略：在这里，我们偏离了[18]中的描述，他们建议生成图形以提高结果的可解释性。相反，对于建筑环境，所需要的是可以简单地向建筑物管理人员解释控制动作。需要在可解释的人工智能（AI）方面取得进展，并且可能表现不佳但更容易解释的算法受到青睐，因为它们更有可能被接受，从而实现。可以在建模者和系统运营者之间建立关于控制法的标准和结果的共识，以促进投资方之间的有效沟通上述每个挑战都需要在模拟环境中进行独特的实验设计，以充分研究和量化影响其解决方案的因素。作为一个例子，我们在第4节中使用CityLearn环境[19]设计并演示了C8。3. 背景我们提供了RL和MARL的背景。详细的介绍可以在标准教科书中找到[13]。3.1. 强化学习在RL中，代理与环境交互以最大化其收到的奖励。RL通常表示为MDP。一个MDP是一个元组=（，）。A和B是Agent的状态和动作在时间步上��，智能体处于状态��∈ k。在采取动作��∈ A之后，代理将转换到下一个状态��+1∼(⋅∣��,��), wheredenotes the transition probability and is usuallyhidden from the agents.此外，代理接收标量奖励奖金�� ∼ ��（ RL的总体目标是找到一种策略，��最大化期望累积收益的条件：在扰动系统上的表现扰动可以包括对建筑物的改造措施（改善围护结构或窗户），改善设备，改变乘员行为或不同Max��E，（）��∞=0这是一个很好的例子。��（一）气候然后，我们可以根据算法在扰动系统上执行先前学习的策略的能力来C6：从多个或不明确的目标函数中学习：能量建筑物的管理本质上是多目标的，特别是已经表明，给定任何固定的策略，上述目标将收敛到基于代理从哪个状态开始的值具体来说，我们将策略的值定义为：当考虑多个区域或多个建筑物时。另一个例子是当有一个全局目标（整体建筑��(��)=E0=，��∞=0��(��,��）]，（二）[∑K. Nweye等人能源与人工智能10（2022）1002024��′你好，��你好，你好��图二. RL和MARL的管道。其中，E1（E1，E2）= E1，E2，E3，E4，E5，E6，E7， E8，E9，E10，��类似地，我们可以定义action-value函数：图三. CityLearn概览。（）=[∑∞（）]=0（三）Eq中的RL目标（1）相当于：最大值（max）��（四）为了优化上述目标，通常有两种类型的RL算法：基于值的和基于策略的。基于值的算法是基于著名的贝尔曼方程的行动价值函数。将最优行动价值函数表示为最优行动价值函数，则已知对于最优行动价值函数，它满足：��（��，��）=��（��，��）+�� E ��′（五）通过最小化上述等式的左侧和右侧之间的差异，我们得到了Q学习算法[20]。3.2. 多智能体强化学习MARL将RL扩展到涉及多个代理的设置。一般的MARL结构包括合作结构、竞争结构和两者的混合结构。在这项工作中，我们专注于合作的设置，因为主要目标是协调建筑物，使电力需求曲线变平，这是所有代理的共同目标。总而言之，我们在这项工作中考虑的MARL问题也被公式化为由元组=（��，��）表示的MDP。主要的区别是：（1）动作空间现在包括了所有主体的联合动作，即，=1× 2��...×，其中是第k个主体的动作空间。（2）状态空间λ = λ1× λ2��...×λ，其中λ是第k个主体的观测值。 RL和MARL的流水线总结见图2。我们建议读者参考[21]，以全面讨论RL和MARL算法。原则上，多代理问题可以被视为一个单一的代理问题，其中一个集中的代理选择所有代理的行动然而，在实践中部署和训练集中式代理的计算成本和成本都很高，因为状态和动作空间随着代理的数量急剧增加[22]。集中式控制架构还降低了系统对恶意攻击的鲁棒性[23]。因此，为每个代理学习决策模块的分散算法是一种更实用的方法。另一方面，一个完全分散的算法，其中代理不知道其他代理CityLearn是一个OpenAI Gym环境，用于在DR设置中轻松实现RL代理，通过控制区域中各种建筑物的能量存储来重塑电力需求的聚合曲线[19，24，25]。它的主要目标是促进和标准化RL代理的评估，使其可以用于来测试不同的算法 CityLearn包括空气-水热泵、电加热器、冷冻水（CHW）、生活热水（DHW）和电能存储设备的能量模型，如图所示。3 .第三章。在每栋建筑中，空气-水热泵用于满足冷负荷，电加热器用于满足生活热水供热负荷。建筑物还可以拥有CHW，DHW和电力存储设备的组合，以抵消电网的冷却，DHW加热和电力负荷。CHW和DHW存储容量被定义为存储设备在完全充电时分别可以满足最大年度制冷和DHW需求的小时数的倍数。所有这些设备以及其他电气设备和电器（不可移动的负载）消耗来自主电网的电力。光伏系统可以包括在建筑物中，以通过允许建筑物产生它们自己的电力来抵消来自电网的部分电力消耗。RL代理通过决定在任何给定时间存储或释放多少能量来控制CHW、DHW和电力的存储。CityLearn保证在任何时候，无论控制器的操作如何，通过利用建筑物的预先计算的能量负载，包括空间冷却，制冷，电器，生活热水和太阳能发电，都能满足建筑物的加热和冷却能量需求。备用控制器保证能量供应设备在存储任何能量之前优先满足建筑物的能量需求。CityLearn已被广泛用作演示基于激励的DR [26]、协作DR [27]、协调能源管理[28，29]或RL算法基准测试[30，31]的参考环境。4. C8：从外部行为策略的固定日志离线训练在这里，我们使用CityLearn环境为GIB背景下的挑战8（C8）评估提供了一个框架，在第2节。具体来说，我们比较了两种RL控制方法，（1）��E0=，0=，��.3.3. CityLearnK. Nweye等人能源与人工智能10（2022）1002025∑（）（）=min0，−（）��（6）��∑��(��)= sign(−�� (��))⋅ 0.01⋅(��)��最大（表1冷冻水（CHW）、生活热水（DHW）和电力（ELE）储存以及每栋建筑的光伏（PV）系统容量。CHW的计量单位生活热水存储容量是指满负荷时可满足的最大年小时制冷量和生活热水负荷。ID CHW DHW ELE PVStg. （h）Stg. （h）Stg. （千瓦时）（千瓦时）1 2 2 140 1202 3 3 80 03 2 0 50 041.5 0 75 405 3.5 1.5 50 252019 - 05 - 25 10：00：007 2 2 40 08 3 3 30 09 3 3 35 0独立的、不协调的SAC代理（参见第4.2.1节），以及（2）在CityLearn环境中使用第4.1节中描述的九个建筑物数据集协调代理的MARLISA算法（参见第4.2.2节）。我们调查代理的行为，从RBC策略的固定日志的离线训练的不同时期。我们的中心假设是，较长的离线训练时间会产生更好的效果。表2独立的SAC和MARLISA RL代理超参数。变量值折扣0.99衰变率0.005学习率0.0003批量256NN隐藏层计数2NN隐藏层大小256回放缓冲区容量100，000温度0.2训练时间步长（744、434、8760）训练集1总时间步长35，040 （4年）4.2.2. MARLISA RL代理商MARLISA是建立在SAC算法，并允许协调通过奖励共享，集体奖励以及相互共享一些信息来实现代理的共享[36]。智能体预测自己未来的电力消耗，并按照领导者-追随者模式相互分享这些信息。在一个迭代过程中，每个代理收敛到选择一个动作之前，该动作被实现。性能，因为智能体将具有理想行为的专家知识泥灰岩2分）=04.1. 数据集我们使用CityLearn Challenge 2021数据集[32]。它由九个能源部（DOE）原型建筑组成：一个中型办公室（ID = 1），一个快餐店（ID =2），一个独立的零售店（ID = 1）。 (ID= 3），一个带状购物中心零售（ID = 4）和五个中型多户建筑（ID = 5EnergyPlus使用德克萨斯州奥斯汀市2014-2017年的实际气象年天气数据对各建筑物的能源需求进行了预模拟。表1提供了它们的制冷、生活热水和电力储存能力以及光伏能力。4.2. Agent奖励设计4.2.1. 独立SAC代理为了控制具有连续状态和动作的环境，表格Q学习是不实用的，因为它遭受维度的诅咒。Actor-critic RL方法使用人工神经网络来概括整个状态-动作空间。参与者网络将当前状态映射到它估计为最佳的动作。然后，批评者网络通过将这些行为以及它们被采取的状态映射到Q值来评估这些行为。SAC是一种无模型的非策略RL算法[34]。作为一种非策略方法，SAC可以重用经验并从较少的样本中学习。SAC基于三个关键要素：SAC学习三个不同的函数：演员（策略），评论家（软Q函数）和价值函数。有关SAC的更多详细信息，我们请读者参阅[35]。SAC3��SAC代理中使用的网络架构和算法超参数总结在表2中，并且是所使用的数据集的CityLearn默认值我们使用奖励SAC（Eq）��（6））对于独立SAC RL剂. 这是一个单年龄的奖励，其价值仅取决于代理人在时间步长的净电力消耗（）。��产品名称：��如果建筑正在消耗更多的电力比它产生的更多，��如果建筑物当时自给自足，并产生多余的电力，则为在MARLISA代理中使用SAC代理中使用的和表2中描述的相同网络架构和算法超参数��Eq.中定义的（7）是MARLISA RL代理商��功能它是建筑物级净电力消耗量（kw）和集体分量kw（kw）的组合，即，在时间步长t1，整个地区的总净电力消耗，并且用于在代理之间共享信息，这奖励它们减少协调的能量需求。��如果建筑物消耗的电力多于其产生的电力，则为0;如果建筑物产生的电力多于其消耗的电力，则为��4.2.3. RBC我们假设没有每个建筑物的能量分布的详细知识，并开发RBC操作序列（SOO）的两种变体，其中RBC基本（算法1）模仿简化逻辑，RBC优化（算法2）由领域知识告知。对于这两种SO，输入是一天中的小时，时间步长，输出是指冷冻水、生活热水或电力储存的充电/放电动作。��算法1中的动作值是任意选择的，以模拟调谐不良的控制器，而算法2中的动作值是通过对每小时值的不同组合执行网格搜索来选择的，以确定在第4.5节中给出的度量进行评估时提供最佳性能的组合。红细胞被调整在每栋建筑中采取绿色行动，并使用存储容量，通过在夜间存储更多能量（当热泵的性能系数较高时）并释放在白天。我们还使用RBC来规范化RL代理算法1：RBC基本操作顺序。输入：，输出：（）��如果9≤ 21，则a（t）=-0.08;其他a（t）= 0.091;端当他们上线的时候。0,（七��(��)K. Nweye等人能源与人工智能10（2022）1002026∑||（∑∑��∑算法2：RBC优化操作顺序。输入：，输出：（）��如果1≤ 0≤ 6，则a（t）= 0.05532;否则，如果7≤ 15，则a（t）=-0.02;否则，如果16≤ 18，则a（t）=-0.044;否则，如果19≤ 10≤22，则a（t）=-0.024;其他a（t）= 0.034;端4.3. 空间设计每个建筑物的作用空间由要控制的可用能量存储系统的数量决定，包括CHW、DHW和电力存储系统。因此，行动空间具有范围在一到三之间的形状，其中建筑物具有至少一个、两个或所有三个存储系统。动作值的范围在-1和其中正值和负值分别是充电和放电控制动作。4.4. 状态空间设计可用的状态空间由27个可观测的时间、天气、区域和建筑物变量组成，这些变量总结在表3中。通过对月和小时状态应用循环变换、对日状态应用独热编码以及对所有其他状态应用最小-最大归一化，对状态进行变换以辅助学习过程。存储系统SOC状态在每个建筑物中有条件地可用。RBC仅利用小时状态来选择控制动作。4.5. 业绩指标/成本函数我们评估代理的性能，他们的能力，以尽量减少四个成本函数，量化集体地区的能源灵活性。��令表示在时间步的地区净耗电量，��然后，Average Daily Peak是一年中的平均日峰值，并由等式定义。（8）其中，是一年中的第几天，是一天中的时间步长数。在我们的应用程序中，对于每小时的模拟时间步长，λ= 24。（最大��∑364（×，��表3所有代理的统一状态空间状态单元时间月日小时-天气干球温度干球温度（+6 h）℃干球温度（+12 h）干球温度（+24 h）℃相对湿度%相对湿度（6 h）%相对湿度（12 h）%相对湿度（24 h）%漫射太阳辐照度W/m2漫射太阳辐照度（6小时）W/m2漫射太阳辐照度（12小时）W/m2漫射太阳辐照度（24小时）W/m2直接太阳辐照度W/m2太阳直接辐照度（6 h）W/m2太阳直接辐照度（12小时）W/m2太阳直接辐照度（24小时）W/m2区净耗电量kWh碳强度kgCO2/kWh建筑区域干球温度区域相对湿度%不可转移负荷kWh太阳能发电W冷冻水储存SOC生活热水储存SOC储能SOC斜升（等式是连续净电力消耗的差，其中，��0≤100%。��−1斜升=−��−1（11）��=14.6. 实验设计我们的实验设计是为了检验第4节中定义的假设是通过更改用于生成离线训练日志的SOO来改变RBC日志。我们也改变了离线培训时间。为一个训练片段，最初的744（两周），4，344（六个月）或8，760（一年）时间步长用于RL的离线训练平均每日峰值==0365（八）从RBCBasic或RBCOptimized中选择操作时的算法在切换到在线之前修复日志，以训练从1 -负载系数是1与月平均需求与月峰值需求之比之间的差值。它由Eq定义。（9）其中，m是月指数，m是每个月的时间步长的总数。在我们的应用程序中，对于每小时的模拟时间步长，我们使用ΔSAC或MARLISA代理算法，用于35，040个时间步长（4年）的剩余部分。总体上考虑的RL代理包括：1. SACRBC碱性2. SACRBC优化1 −负载系数=11=0×（1+��=��× max��×112（九）3. MARLISARBCBasic4. MARLISARBC优化通过这些组合，我们研究了简单与简单的影响。表示“共同”之义净电力需求（Eq. （10））是正净电力需求的总和孤岛行动受到激励。��−1Net Electricity Demand = max（0，千分之一）（10）=0相对更复杂的算法（独立SAC与MARLISA）和更少或更详细的领域知识（RBCBasic与RBC优化）。这些模拟是针对一个事件运行的，其中一个事件是35，040个时间步长的时间段，表示2014-2017年的小时数。我们在CityLearn中使用九个建筑物数据集对离线训练期和RL代理的每个组合进行了三次1 −）K. Nweye等人能源与人工智能10（2022）1002027优化见图4。在整个四年模拟期内，存储系统由RBCBasic或RBCOptimized的固定日志控制时的能源灵活性性能指标。在第4.1节中描述，用不同的随机种子初始化。将结果在三次运行中平均用于产生这项工作的源代码可在[37]中获得4.7. 结果4.7.1. 性能度量图4显示了地区一级的绩效差异-在选定的时间段内没有PV安装和能量存储控制。2014年的概况是六个月的离线培训结束后的最初七天，2015年显示的是同一时期。在2014年，两周和六个月的培训RL代理已经在线，而一年的培训代理仍在离线培训，因此，代表RBC控制下的净电力消耗。对于每个RL代理，六个月训练的代理在上线后立即表现得像两周训练的代理，因此两种训练周期的变化在模拟六个月后具有相同的净电力消耗。对于2014年的所有RL代理，与已经在线的场景相比，仍然离线的一年培训设置在清晨和深夜具有更高的净电力消耗，但在中午具有更低的净电力消耗。到2015年同期，无论RBC领域知识、RL算法复杂度和离线训练周期如何，净电力消耗曲线几乎相等。总体而言，与基线（即无控制和PV）相比，在上午晚些时候和下午之间，5. 讨论5.1. 高级楼宇控制器需要先进的楼宇控制器来改进预先确定的设定点的行业标准，这些设定点不考虑预测或允许优化操作顺序[11]。当所有存储系统由任一RBC控制时，或MPC在20世纪70年代RBC优化在整个四年的模拟期内。RBC基础从那时起，它就应用于许多行业[38]。MPC需要为要控制的设备开发数学模型在平均每日峰值、1 -负载因子和斜坡指标方面进行评估时，其性能优于RBCBasic。两种RBC算法在净耗电量方面表现相似，RBC优化在长期最大限度地减少净耗电量方面几乎没有优势。图5显示了第4.6节中概述的不同离线培训期和RL代理的地区级性能指标。度量相对于用于离线训练的RBC（黑色虚线）进行归一化，其中RL代理的优异和较差性能分别由小于1的值和大于1的值指示。RBCOptimized的详细领域知识使其性能优于SACRBCOptimized和MARLISARBCOptimized试剂。因此，使用RBCOptimized进行更长时间的离线训练会导致收敛延迟，从长远来看，更好的表现。另一方面，在RBCBasic中使用的简化的SOO导致与RL代理相比较差的性能，使得与训练较短时间段的RL代理相比，训练较长时间的RL代理遭受较差的性能。RBC优化训练的RL代理的净电力消耗是值得注意的，因为离线训练期间的变化显示出可忽略的性能差异。有趣的是，两周的最短离线训练期导致在RL代理上线之后立即在净电力消耗成本函数中的初始大的改进，但是在第一年内，淘汰并接近表现较低的六个月和一年训练的代理。在SAC和MARLISA RL算法之间，当使用相同的RBC训练代理时，平均每日峰值和1负载因子不受算法复杂性的影响。MARLISARBCOptimized的斜坡成本函数在较短的离线训练期内显示出较差的初始性能，但随着时间的推移而改善。相比之下， SACRBCOptimized 座席能够保持与RBCOptimized几乎相同的斜升性能。4.7.2. 地区用电量在图6中，我们显示了四个离线训练的RL代理的地区这对于可复制的系统（汽车、飞机）很有效。建筑物及其能源系统的独特性，以及开发和校准模型时的工程成本，使得尽管取得了所有进展，但MPC尚未在建筑行业中采用[39，40]。RL算法被认为是解决MPC的缺点，潜在的无模型。然而，与MPC方法相比，RL方法可能更数据密集且更耗时。即使进行了比较，也往往偏向于一种类型的算法，因此相对来说没有意义。这里介绍的挑战特别关注应用的广度，而不是一个特定的问题。这样可以进行公平的比较。当然，当我们在RL的背景下争论时，所述挑战可用于算法类之间的比较。 MARL中一个很有前途的方法是分散执行的集中培训（CTDE）。CTDE假设每个代理的策略学习可以依赖于全局状态（在我们的情况下，所有代理的观察的聚合），但在执行过程中，代理独立工作。通过这样做，智能体可以根据一些学习到的知识进行合作，以便在执行过程中他们不需要知道其他人的观察结果。与基本MARLISA算法相比，已发现MARLISA的CTDE版本可提供更平滑的轨迹[27]。当然，算法复杂性的进步必须与数据和通信需求和潜在的隐私问题。5.2. 环境标准化我们强调需要标准化计算环境，如复杂建筑模拟器（COBS）[41]、Sinergym [42] 、BOPTEST [43] 、高级控制测试床（ACTB），或CityLearn [19]使用公共接口，例如， OpenAI Gym [44]，并发布数据集和开源实现。这可以帮助引发类似于ImageNet数据集为深度学习社区引发的开发热潮[45]。然而，与ImageNet的发展形成对比的是K. Nweye等人能源与人工智能10（2022）1002028图五. CityLearn模拟不同离线训练期和RL代理的结果，评估能源灵活性性能指标。离线培训周期包括744（两周），4，344（六个月），8，760（一年）时间步，分别由蓝色，橙色和绿色线表示。RL代理包括SAC RBCBasic、SAC RBCOptimized、MARLISA RBCBasic、MARLISA RBCOptimized。每个度量都相对于用于离线训练的RBC（黑色虚线）进行归一化，其在RL代理的名称的下标中指示（关于此图例中颜色的参考解释，请读者参考本文的网络版本见图6。对于不同的离线训练期，在地区水平上，在没有控制和PV（黑色虚线）的情况下的电力消耗与具有RL代理控制的CHW、DHW和电存储系统的净电力和PV之间的比较。离线训练周期包括744（两周），4344（六个月），8760（一年）时间步，分别由蓝色，橙色和绿色线表示。RL代理包括SACRBCBasic、SACRBCOptimized、MARLISARBCBasic、MARLISARBCOptimized。图中显示了2014年模拟六个月后的最初七天（左），图中显示了随后一年2015年的同一时间段（右）。（关于此图例中颜色的参考解释，请读者参考本文的网络版本K. Nweye等人能源与人工智能10（2022）1002029将有利于一方面将领域知识从建筑物转移到控制器设计，另一方面便于将算法的理论发现转化为实践。公共场地或者邀请客人参观彼此5.3. 离线学习挑战（C8）我们在解决C8问题时的核心假设是，较长的离线训练时间会带来更好的性能，因为智能体在上线时会拥有理想行为的专业知识。我们发现这个假设是正确的，并受到某些设计选择的影响。我们的实验表明，在RBC中用于生成的SOO离线训练的固定日志的数量决定了RL代理在第4.5节中介绍的四个成本函数上进行评估时的性能。在优化的RBC的固定日志上进行更长时间的离线训练将导致在线时收敛速度较慢，但从长远来看性能优越。随着离线学习时间的增加，从简化RBC学习的RL代理的性能会降低优化RBC在降低区域平均日峰值、1 -负荷因子和斜坡方面能够显著优于RL控制器。这显示了在实践中通过安装更复杂的控制器来改进现有RBC的显著能量灵活性潜力。然而，RBC系统不能响应于控制环境（C5）中的扰动，这是RL控制器所具有的能力，这可能影响控制器在满足控制目标方面的整体性能。我们将在今后的工作中处理C5问题。我们没有观察到任何显着差异的SAC和MARLISA RL算法的性能进行评估时，对四个性能指标。这表明，更简单的SAC算法是足够的，增加的复杂性和信息共享的成本可以避免的。我们的实验表明，无论离线学习时间，RBC SOO和RL算法复杂度如何，净耗电量的差异可以忽略不计。我们在RBC设计的背景下提供了一个解释。RBCBasic和RBCOptimized都设计用于在夜间和清晨为存储系统充电，以利用更高的热泵性能系数（COP）。他们的逻辑在住宅DR计划中也是有益的，该计划在需求较低的时期激励电力消耗。然而，在模拟环境中没有这种DR设置的情况下，这种设计对于其能量由热泵输送的CHW存储是最有益的。生活热水和电力存储充电需求直接由电网满足，并由可用的太阳能发电抵消。太阳能发电在白天是间歇性的，因此，这些存储设备可以受益于离线训练中存在的一个挑战是非探索性的同质离线数据集的可能性，这可能导致在实时系统上表现不佳的非通用策略。Yarats等人的工作强调了离线训练中使用的探索性数据的多样性对RL代理性能的重要性[46]。我们的结果证实了这一观察结果，因为在调整的RBC的固定日志上进行更长时间的离线训练会产生更好的结果。6. 结论我们已经介绍了一系列研究现实世界GIB的挑战。虽然在这个领域仍然存在许多研究挑战，但我们强调需要有组织地推动社区解决这两个基本的计算挑战，但以适用于建筑环境中更大问题的方式。作为一个例子，我们研究了挑战8（C8）：从外部行为策略，离线训练的三个长度周期、两个领域知识层次、RL算法复杂度和四个性能指标。我们无意暗示上述清单是挑战的详尽清单。相反，通过突出典型的现实世界问题，我们的目标是激励研究人员定义和分享他们的环境和他们正在解决的问题，这些挑战作为一个标准框架。缩略词AI人工智能。CHW冷冻水。COP性能系数CTDE集中培训，分散执行。家用热水。美国能源部。DR需求响应。EV电动汽车GIB网格交互式建筑。暖通空调供暖、通风和空调。MARL多智能体强化学习。马尔可夫决策过程MG马尔可夫游戏MPC模型预测控制太阳能光伏基于RBC规

下载后可阅读完整内容，剩余1页未读，立即下载