强化学习利用模仿学习在建筑控制中的应用

153 浏览量更新于2024-01-22 收藏 3.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

能源与人工智能14（2023）100255强化学习利用模仿学习Sourav Deya，Chang，Thibault Marzullob，Xiangyu Zhangb，Gregor Henzea，b，ca美国科罗拉多州博尔德市科罗拉多大学土木、环境和建筑工程系b美国科罗拉多州戈尔登国家可再生能源实验室c美国科罗拉多州博尔德可再生和可持续能源研究所H I G H L I G H T S• 该方法解决了先进建筑控制的实际挑战• 强化学习利用模仿学习显著减少了RL控制器代理的训练时间和早期探索性不稳定行为• 该方法是有效的，找到一个控制策略优于基于规则的或启发式的策略。A R T I C L E I N F O关键词：强化学习建筑控制模仿学习人工智能A B标准强化学习（RL）在自动驾驶汽车、机器人、营销和游戏行业等领域的顺序决策中取得了巨大成功。这一成功吸引了用于建筑物能源系统的RL控制方法，由于需要优化多个潜在冲突的目标，如居住者舒适度，能源使用和电网交互性，因此该系统变得复杂。然而，对于现实世界的应用，RL有几个缺点，比如需要大量的训练数据和时间，以及在早期探索过程期间不稳定的控制行为，使得直接应用于建筑物控制任务是不可行的。为了解决这些问题，在此利用模仿学习方法，其中RL代理以从接受的基于规则的策略和启发式策略转移的策略开始。这种方法成功地减少了训练时间，防止了不稳定的早期探索行为以及改进公认的基于规则的策略-所有这些都使RL成为更实用的控制方法用于建筑控制领域的实际应用1. 介绍背景建筑物占美国一次能源总使用量的40%，占电力使用量的70%以上[1，2]。在建筑物中，特别是通过供暖、通风和空调（HVAC）系统提供热舒适性花费了大量能源。它们占平均建筑能耗的40%以上[3]。在美国，这一比例超过50% [4]。人类花费超过86%他们的时间[5]。操作这些HVAC系统的建筑物控制器负责维持舒适、安全和健康的室内条件，同时还旨在降低建筑物的能耗。保持舒适的室内条件的目标最近，由于建筑技术的发展和我们整个电力系统的变化，建筑控制变得越来越复杂，需要平衡多个目标，例如满足电网灵活性、室内占用率或管理现场可再生能源生产和存储[6]。这些不同的技术和操作目标的实现需要先进的控制器，这些控制器可以在多个冲突的目标之间进行权衡，并且还可以随着时间的推移适应新兴技术[7]，从而改变环境反馈。传统的建筑控制，主要是基于规则和启发式的专家经验的基础上，是无法实现这样的多目标优化。在基于规则的控制中，控制依赖于预定的设定点，并且局部比例-积分-微分（PID）控制回路用于维持这些设定点。建筑控制专家已经制定了一流的控制策略，ASHRAE指南36-2018 [8]提供了一系列广泛的建议∗ 通讯作者。电子邮件地址：sourav. colorado.edu（S.Dey），thibault. nrel.gov（T.Marzullo），xiangyu. nrel.gov（X.Zhang），gregor. colorado.edu（G.Henze）。https://doi.org/10.1016/j.egyai.2023.100255接收日期：2022年6月30日;接收日期：2023年3月6日;接受日期：2023年3月11日2023年3月14日网上发售2666-5468/© 2023作者。由爱思唯尔有限公司出版。这是一篇开放获取的文章，获得了CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可从ScienceDirect获取目录列表能源与AI期刊主页：www.elsevier.com/locate/egyaiS. Dey等人能源与人工智能14（2023）1002552在这些上面。虽然共识驱动，但这些基于规则和启发式的策略可能不一定是最佳的，因为它们是预先确定的，并且不适合建筑物的具体情况和当地条件。这些管制员也不考虑天气和入住率等预报。由于这些原因，这种传统的基于规则的控制器在其性能上是次优的，并且另外，良好的基于规则的控制器需要相当多的工程时间来进行调谐和性能监控以实现可接受的性能。新的先进控制策略或算法，如RL或模型预测控制（MPC），使其控制策略适应各种目标或成本函数，而启发式控制不能。此外，基于规则的控制不适合于需要套利或需求响应场景的基于动态价格的优化问题。虽然MPC在化工厂和炼油厂的过程控制应用中取得了成功[9]，并且在研究中也在建筑控制中得到了普及[10]，但它尚未在商业建筑行业中得到广泛应用。MPC的主要瓶颈之一是需要开发和识别系统模型，这些模型捕获建筑物及其HVAC系统的动态行为。然而，由于每一座建筑都是独一无二的，不像汽车或飞机，很难为每一座建筑开发一个模型因为它是劳动密集型的，并且需要广泛的专业知识来开发和维护建筑物的准确模型[11]。在这种情况下，强化学习似乎很有吸引力，因为它通过交互学习采取最佳行动，并且可以随着时间的推移改进其控制策略。此外，RL有潜力随着时间的推移学习更好的控制策略，即使在具有挑战性的环境中也能适应不断变化的动态在过去的几年里，RL创造了几个成功的故事。它能够在人类水平上玩一系列Atari 2600视频游戏[12]，在围棋比赛中击败人类世界冠军[13]，并在自动驾驶汽车[14]和机器人应用[15，16]等领域取得成功。虽然使用RL有很多好处，但挑战在于它的训练时间长，以及早期训练阶段的不稳定行为。根据建筑物控制任务中问题的复杂性，训练时间可能介于4周到40年的数据。在现实世界的应用中，控制工程师不能等待如此长的时间来获得良好的控制性能，也不能承受由于RL代理在早期探索阶段的不稳定行为而导致的热不适、能源成本或设备故障。在这项工作中，模仿学习技术已被开发，有效地避免了这些问题，从而RL代理开始与知识的规则为基础的政策，并提高该政策取决于为代理设置的目标。关于迁移学习的前期工作。迁移学习（TL）是从源领域和任务转移知识和信息以改进目标领域和任务的过程[17]。由于知识转移，TL通常导致控制任务中的学习过程比不使用迁移学习的任务更快。 RL建筑控制应用背景下的迁移学习技术文献是一个新兴领域，迄今为止关于这一主题的出版物有限。在建筑物的背景下探索TL的论文大多使用简化的建筑模型或使用简化的任务。下一节将讨论一些现有的文献Lissa等人。[18]演示了迁移学习应用程序，Q学习框架。通过迁移学习，对于HVAC控制，调整到类似大小和结构的房间的培训时间减少了六倍。这也表明，如果环境变化较小，迁移学习也可以在新的地理位置上取得良好的效果。Lissa等人在另一份出版物[19]中，使用了基于[20]的共享并行迁移学习经验，从配备类似设备的类似建筑中，加快学习过程。Zou等人[21]使用了一个基于长短期记忆（LSTM）的深度强化学习环境，该环境使用一年的构建数据来预训练深度确定性学习。策略梯度（DDPG）算法RL代理能够将舒适度保持在10%的预测不满意百分比（PPD），与基于规则的控制相比，能耗降低了27%。Zhang等人[22]使用来自现有控制器的TL方法，通过直接从经过训练的建筑代理复制控制参数来加速应用于新的类似住宅建筑的控制器的训练时间。Spangher等人。[23]使用LSTM [24]规划模型来填充软演员评论家（SAC）算法的内存缓冲区[25]。内存缓冲区包含当前观测向量、控制动作和作为在环境中采取控制动作的结果的代理的下一个观测。与长期记忆（一种永远不会清空的记忆）相比，短期记忆缓冲区在收集最近的较低数量的批次后清空，具有最佳的性能Xu等人[26]使用了一种新的TL方法，该方法通过利用两个神经网络可扩展到具有不同布局和建筑材料的多区域建筑物-一个推广到所有建筑物的前端网络和一个特定于建筑物的后端网络。Costanzo等人。[27]使用模型辅助批量强化学习（MABRL），使用拟合Q迭代。这使用单层、单输出极端学习机（ELM）模型的多个实例[28]来预测温度的变化。对输出进行平均以减少ELM模型的回归误差。来自该模型的数据用于填充实验样本密度低的区域中的状态空间。这是一种混合离线和在线学习方法。还有一个动作处理器，它可以根据涉及室外空气温度和舒适度界限的特定规则来覆盖控制策略，从而实现更好的控制。代理能够在10天内找到一个不错的策略，并在20天内找到一个数学最优值的90%Tsang等人。[29]使用TL方法，其中将来自经过训练的代理的建议动作添加到DQN代理的状态观察中，从而最小化收敛所需的训练时间。Deng和Cheng [30]利用RL方法开发了一种用于恒温器和服装水平的居住者行为模型。在这里，使用了TL方法，该方法仅将高级策略从状态转移到动作，从一个经过训练的建筑物转移到其他建筑物，而不是转移神经网络的实际权重。Mocano等人[31]提出了一种利用RL方法的能量预测方法，该方法具有两种RL算法，Q-学习和TL方法是利用深度信念网络（DBN）[33]实现的，该网络能够从离散状态映射到连续状态。Tao等人[34]展示了电池储能系统（BESS）和HVAC系统中的有效迁移学习过程，该过程参与需求响应（DR）程序，利用经过训练的固定浅卷积层，并提出了基于[35]的演进域自适应网络（EDAN）方法，在特定目标域的更深层中。Fan等人。[36]使用基于源域和目标域之间的供需曲线之间的欧几里得距离的相似性评估函数，以评估哪个源域更适合在微电网调度中转移到目标。我们回顾了一些迁移学习方法在建筑物中，因为在这项研究中，我们利用模仿学习的源任务，并使用一个一个流行的RL算法的目标任务。本研究中使用的源任务和目标任务的详细信息在以下章节中描述。2. 一种基于强化学习的RL算法初步。强化学习算法主要基于马尔可夫决策过程（MDP），它假设当前状态只取决于上一个状态，而不取决于导致上一个状态的轨迹。这些主要以元组（，A，，）的形式表示，其中是环境状态S. Dey等人能源与人工智能14（2023）1002553|��|��控制器需要在其中做出控制决策的空间，A是动作空间，是来自在每个时间步执行的控制动作的奖励或反馈，并且是状态转移的概率分布。通常在MDP控制任务中，在每个时间段之后采取控制动作，其中在时间t，代理观察到状态t∈ A，选择动作t��确定代理将转换的下一个状态观测值��+1以及获得的奖励��+1（其中∈），基于�� 在行动中，��代理人的目标是最大化期望收益E[k]，最终目标由裁剪目标、用于鼓励探索的熵项和用于更好的值函数估计的误差项组成。PPO以行动者-批评者风格实现��，其中行动者网络试图最大化裁剪目标以及熵项，而批评者网络试图最小化值函数中的损失，以便它具有更好的值估计，用于计算优势函数A的估计。感兴趣的读者可以参考[40]以了解有关PPO算法的更多细节模仿学习。模仿学习是一种重要的学习方法，其中， =∑我的天��啊！�� 是一个参数（0��在常见的自主行为系统中，折现率w_h=i_ch决定了代理人给予即时回报与未来回报相比的相对重要性接近0的值使代理优先考虑即时回报，而不是长期回报。是终端状态，但对于连续任务，= ∞，并且该和返回一个有限值，因为无穷级数由于θ1而收敛。强化学习算法可以有三种类型：（1）基于值的，（2）基于策略的，以及（c）混合演员-评论家风格，本质上是基于值和基于策略的算法之间的混合方法。基于策略的算法通过从建筑物的反馈开发状态到动作的直接映射来工作。另一方面，基于值的算法通过开发值函数并从从环境中学习的值函数间接导出策略来工作价值函数本质上是对收益或E[m]的期望。在混合Actor-Critic方法中对于高维复杂的非线性环境，值函数和策略通常由前馈神经网络（NN）表示前馈神经网络是一种由密集连接的人工神经元组成的复杂函数逼近器。通常，人工神经元计算输入的加权平均值，并通过非线性激活函数传递总和。NN中的每一层包括一些参数化的人工神经元。NN基本上有三个连接的结构：（1）第一个输入层，（2）中间的隐藏层，（3）最后一个输出层。输入层是NN接收NN的初始原始数据的地方，隐藏层是输入层和输出层之间的中间层，对输入应用复数非函数来处理数据，并且输出层产生给定输入的结果。有关人工神经网络及其学习过程的更多细节，读者可以参考[37]。PPO算法RL控制器通过接收来自动作的反馈来学习最大化来自环境的期望回报E[k]。RL算法可以分为两种类型，基于值或基于策略或两者的混合。最近策略优化（PPO）是一种混合策略，介于基于价值和基于策略的状态之间，该算法在各种任务中表现出良好的性能。在基于策略的方法中，学习控制策略优化（Control Policy Optimization，简写为PSNR 一般由E. E.E.（n）公式化的预期收益（n），其中n是政策参数。在这里，代理从已经收集的经验轨迹执行梯度的随机估计��，并实现梯度上升（即，��在训练更新中，PPO算法起源于信任域策略优化（TRPO）[38]，一种策略梯度方法。在TRPO中，PPO没有（三）限制新政策从旧政策的更新的ratio（ratio）是新策略和旧策略之间的概率比��，其中��是策略的参数，并且A��表示优势函数。机器人、计算机游戏、工业应用、制造业以及自动驾驶。模仿学习的目的是模仿人类行为或被认为表现良好的代理，一个特殊的任务。这本质上是学习将观察映射到行动。它有助于减少教学代理的任务，通过显示代理为完成特定任务而采取的操作。模仿学习在自动驾驶汽车、机器人和其他行业等领域非常有用，这些领域可以获得大量的专家人类演示的感官数据。模仿学习方法的设计通常有两种类型，反向强化学习和行为克隆。在逆再学习中，奖励函数是未知的，这需要从现有的专家论证中恢复。行为克隆是一种简单的直接映射的状态映射到控制输入或动作��[41]如下图所示，��=��(��)(3)该策略可以通过监督学习方法从演示轨迹的数据集 ={\displaystyle{\frac {={\frac{={\frac {={}}学习。��一个参数集，��这里使用神经网络来学习从状态到行动在这项研究中，我们利用行为克隆方法来热启动RL代理，而不是逆强化学习，因为它的简单性。我们假设我们无法访问任何历史数据或基于规则的演示。训练所需的数据是以状态-动作（状态，状态）元组的形式人工生成的��为特定应用形成人工数据的细节在第4节中关于人工数据生成的段落中提到。建筑中的模仿学习方法。建筑物的多目标优化是困难的，因为每个建筑物是唯一的，并且通常优化问题是复杂的和非凸的。此外，开发定制和准确的建筑模型不是一种可扩展的方法。MPC需要详细的精确模型来执行优化，因此缺乏可扩展性。传统的建筑控制是开发启发式规则设计的控制工程师从领域的专业知识和经验，即使他们可能是次优的长期性能。这些基于规则的控制策略具有简单、易于实现、易于解释等特点，在建筑控制领域得到了广泛的应用当试图实现高性能时，这些启发式策略需要大量的工程努力。控制工程师通常不愿意实施高级控制来代替基于规则的控制，因为它们可能无法解释[42]。模仿学习可以解决这种不愿意实施高级控制的问题，因为通过这种提出的强化学习方法，控制器从基于规则的策略开始。随着时间的推移，从建筑物的真实反馈，RL算法评估是否启动基于规则的策略是最好的调整为预期的多目标优化，并修改此策略，有利于减少惩罚目标。在自动驾驶汽车和机器人等应用中，人类演示被认为是专家和控制器（）��=（）��（一）��|��）（一）学习如何有效地模仿人类。然而，在世界上这是不同的，因为基于规则或启发式控制器是足够的，但通常是次优的。它们主要由（）=E[min（（）A（，），clip（（），1−，1+）A��（，））]（2）��通常基于温度和时间的条件规则。模仿S. Dey等人能源与人工智能14（2023）1002554学习再现这些所展示的基于规则的行为作为起始策略，从而避免了不稳定的早期训练期的陷阱以及达到适当策略的训练时间。这是通过预训练RL代理的参与者策略来完成的，以学习将状态映射到基于规则的或启发式的动作，而不知道动作的后果，这在RL术语中意味着以奖励形式的反馈。 RL代理在通过接收真实反馈与真实建筑物进行交互后，学习评估这个预先训练的模仿策略，并发现这是一种对原来的模仿策略进行改进的方法在这项研究中，我们生成一个人工的一组数据组成的元组（状态变量，动作变量），假设我们没有访问历史建筑数据。��模仿学习的输入状态对于强化学习观察状态是相同的。�� 在模拟学习监督训练之后，这里使用PPO算法。训练好的网络参数RNN仅传递给PPO代理的Actor网络，而Critic网络则随机初始化。��然后，PPO代理与建筑物进行交互，并修改其策略，以实现比基于规则的策略更好的结果。通常建议保持学习率和熵项的超参数较低，以限制探索过程并避免大的训练更新。如果历史建筑数据可用，它们也可以通过形成状态来用于这种监督培训��根据预期RL问题的公式化，计算和行动计算。然而，有时历史数据可能不够丰富，状态空间可能没有被充分覆盖。因此，需要在状态空间的稀疏访问部分中创建一些人工数据集，并将其添加到模仿学习部分的历史数据Fig. 1. ACTB框架。内部增益、围护结构传热和热负荷与基于Modelica的HVAC系统、流体回路和底层低级别控制相结合[44]。这是EnergyPlus的升级版，由于EnergyPlus无法实现闭环控制功能，因此模拟引擎应用基于准静态负载的热负载和HVAC响应模拟。这是通过基于方程的Modelica HVAC和控制模型来解决的，其中仿真是动态的，并像在真实物理建筑中一样实现控制动作。 Spawn允许将EnergyPlus模型打包和编译为功能模型单元（FMU），这些单元与Modelica中编写的HVAC组件进行交互语言算法一：用RLC模拟学习。1：用可用建筑物特征空间的状态和无关变量以及控制动作来公式化RL问题��2：如果基于规则的历史数据可用，则3：从可用的历史建筑数据和天气数据中形成��第四章：添加（，）的人工�� 探索状态空间，而基于规则的操作不探索状态空间，而基于规则的操作是基于规则的操作，��5：其他6：形成（，）的人工��7：使用参与者网络参数“动作”执行监督学习，以学习将状态“动作”映射到动作“动作”��8：结束监督培训，直到培训以可接受的准确性9：将训练好的网络节点传递给PPO代理的演员网络节点（演员网络节点←演员），并随机初始化评论者网络节点��10：通过以下方式，用网络参数、网络参数和网络参数来训练PPO代理：��与真实建筑的互动。ACTB利用建筑运行性能测试（BOPTEST）[45]和Alcohol [46]框架来管理模拟、代表性状态转移（REST）应用程序编程接口（API）和关键性能指标（KPI），以评估控制策略的有效性。REST API为控件开发人员提供了用户友好的体验，以开发与编程语言无关的高级控制器，并通过完善的控件库进一步实现与现实建筑环境的交互。图1示出了先进控制测试平台的架构。本文提出的RL研究工作已经通过使用ACTB的OpenAI Gym [47]接口实现。OpenAI Gym的创建旨在标准化人工智能（AI）和RL领域的研究，以及轻松进行基准测试和比较算法。该框架为AI研究社区提供了可定制的现实建筑环境，而无需单独开发环境的物理系统。在这里，ACTB的Gym界面在选择控制动作、用于观察的状态以及制定奖励方面具有灵活性，该奖励将重要性分配给不同的目标，如能耗和热舒适度。监控设定点和低级别控制可以通过ACTB来实现这些暖通空调的控制ACTB中的系统设计遵循ASHRAE指南36，3. 使用的建筑框架高级控制器通常在部署到现场之前在虚拟测试台环境中开发、调整和测试其性能。在这项研究中，我们使用开源建筑性能模拟测试床，高级控制测试床（ACTB）[43]，这是一种用于在高保真逼真的建筑环境中开发和测试高级建筑控制器的软件环境，以逼真地模拟建筑控制系统的行为。这是以前其他开源平台所缺乏的功能ACTB与Spawn of EnergyPlus建筑模型接口，使其成为高保真建筑模型。 EnergyPlus的衍生产品是美国能源部开发的一种模型交换，使用EnergyPlus模拟了未被外部控制器脚本覆盖。在这里，实施监督设定点控制。从以前的文献贡献出发点&。RL控制在建筑物上的应用研究很少依赖于现实和高保真的建筑环境。相反，RL代理通常在简化的状态空间模型上进行测试，这些模型不能模拟真实建筑物的非线性动力学，并且控制任务可能RL代理解决起来过于简单。本研究针对这一缺点，使用先进控制试验台（ACTB）进行测试RL控制一个现实的能源加小办公楼的衍生物。此外，大多数文献在部署到目标建筑环境之前，利用类似建筑环境的RL预训练。在这种方法中，可以避免这种早期的预训练开发工作，因为RL代理通过模仿基于规则的S. Dey等人能源与人工智能14（2023）1002555图二. 用PPO模仿RBC学习。该策略被建筑界和控制工程师很好地接受，尽管它是次优的。此外，这不需要模型开发或以前的实际建筑数据。它可以立即部署到一个真实的建筑物，其中RL代理通过遵循模仿的基于规则的策略启动。随后，它评估这个模仿的策略是否对于为控制问题定义的多目标目标是最优的，并且根据从实际的建筑环境。4. 为例建筑环境的描述。这里使用的建筑模型是美国能源部（DOE）参考小型办公楼的Spawn模型，该模型在单层中具有四个周边区域和一个核心区域，楼层到天花板的高度为3米。建筑面积511平方米. 建筑的长宽比为1.5，长边与东西轴线对齐，并且上光分数为0.21。围护结构由一个U值为0.857 W scinm2 C的质量墙（连续隔热墙）组成，窗户的U值为3.23 W scinm2 C，太阳热增益值0.39的建筑物的光密度为10.76 Wscinm2。该建筑物的HVAC系统由多个定风量空气处理单元（AHU）组成，该单元由燃气加热盘管、单级直接膨胀冷却盘管、不带经济器的外部空气阻尼器和定风量风扇组成五个热力区分别由一个成套的屋顶AHU供电，建筑物内共有五个AHU。该建筑位于美国伊利诺伊州芝加哥市。夏季冷却控制应用程序在这里实现，以证明这种方法的好处，但这种方法并不限于夏季冷却，并可以应用于冬季天气条件下的加热方案。该建筑物的示意图如图所示。3.第三章。RL代理控制单速冷却盘管以控制室内空气温度。RL代理的目标是减少能源消耗，减少热不适，并参与需求响应（DR）的情况下，目标需求限制计划。在夏季高峰时段，整个建筑物的需求量为20千瓦。尽管目标需求限制通常由公用事业提供商设置，但我们假设在DR事件期间，建筑物预计将减少其峰值负荷的25%。因此，我们将目标需求限制为建筑物的能量为15，000W，并且如果整个建筑物的能量超过目标需求限制，则控制器招致惩罚。DR事件通常在下午2：30到3：30之间进行，并可持续2至2.5小时。图三. 美国能源部参考小型办公楼的布局。资料来源：[48]。Approach. 该应用程序演示了一种新的方法，在代理转移到EnergyPlus模型的Spawn之前使用模仿学习，后者尽可能代表真实的建筑物。PPO代理本质上有两个前馈神经网络结构，演员和评论家共享相同的网络参数，除了输出层。行动者输出要采取的行动，批评者输出状态的估计值函数。在这里，参与者网络以监督的方式进行训练，以学习模仿监督规则库动作的动作。结构行动者-网络的最大值为[4，600，700，1200，1000，800，750，3]，而批评者-网络的最大值为[4，600，700，1200，1000，800，750，150，1]。��训练最初是从一个较小的浅层神经网络开始的。通过反复试验，选择了大维度的神经网络，因为这有助于减少模仿学习训练中的损失，以将状态映射到基于规则的动作。这本质上是一个监督学习过程，其中演员NN被训练为将输入状态映射到作为基于规则的控制设定点的动作。该建筑物夏季工作日的入住时间表见图1。四、有五种PPO试剂在起作用，每个热区一种。每个PPO参与者网络被提供有训练的模仿策略。在与Spawn模型交互并获得真实反馈后，奖励的形式，PPO代理修改其参与者网络以从建筑物环境接收更高的分数各国审议。考虑用于在Zone 100中的RL代理的反馈的状态是：• ��温度-S. Dey等人能源与人工智能14（2023）1002556��调整罚款，使所有KPI在目标函数中具有相似的重要性。线性权重R11、R13和R15是负的，因为这些是代理旨在最小化的惩罚成本��(��)=��1��2��+��3��4+5��(−��)6(4)��见图4。占领时间表。• ��时区- 当前时间（小时）。• 温度设定值-先前温度设定值与基于规则的温度设定值的偏差。• 0-距离DR事件的剩余时间（小时）。• 1-指示当前时间是否落在当天的DR事件中的二进制信号。0是DR事件的倒计时时间信号。在DR事件期间和之后，此状态返回0。二进制1信号是DR事件期间为1，其他时间为0。这些状态在0和1之间进行归一化，除了��最后考虑的状态是[，0，1]。��行动RL控制器可以在每一步采取三个监督设定点动作（监控）。�� 代理可以通过以下方式0.5或保持相同的设定点（设定值 ∈ {±0.5℃，0℃}）。这里模拟步骤时间为5 min。使用了一个动作约束，其中监控温度设定点可以在占用时间内采用[18℃，27℃]范围内的任何设定点，在空闲时间内采用[15℃，31℃]范围内的任何设定点。这里，所实施的约束是弱强制，这意味着如果控制器输出任何超出所述范围的监督设定点，则动作被覆盖以将值投影到极值边界。五个RL代理中的每一个都具有相同的控制器动作设置奖励方案。单个区域控制器的奖励公式是相同的，如方程式所示。（四）、每个区域控制器接收由热不适、受控区域的能量消耗和功率损失产生的反馈/奖励。整栋楼包括了整体的功率惩罚项只有当单个控制器在特定时间步长期间利用非零冷却功率时，才在用于单个控制器的奖励项中。奖励函数中的这些目标通过向它们分配美元金额而适应于货币奖励目标。热不适的价格是基于芝加哥办公室工作工资的假设及其与员工生产力下降的关系。这意味着惩罚建筑物的热舒适度与区域的占用率成正比。在上午6：00至晚上10：00的占用时间内，热舒适界限在21℃至24℃之间，在一天中剩余的空闲时间内，热舒适界限在15℃至30 ℃由于这座大楼是一座办公楼，白领工作，其中：热不舒适度=每步热不舒适度[Kh]=每步能耗[kWh]=每步整栋建筑功率[kW]DR= DR事件期间的整个建筑物功率阈值[kW]��1=��2=��L3=线性超参数，*4=指数超参数，��5=幂惩罚��106=幂惩罚��热不适价格[$/Kh]功率损失=功率损失的线性超参数[$/kWh]��按需电价=按需电价[$/kW]��= Occupancy [-]在这个问题中选择的奖励公式的超参数权重是：1=-100，3=-1，5=-2，4=-6，6=-100。��在DR事件期间，1=-200，1 =-200，1=3=-100 +3000，1 =5= 0和1=4=6= 1，在一天中的其他时间。��是基于外部空气温度的比例因子。��如果温度> 25摄氏度，则比例因子为1闪烁（闪烁− 25），如果温度≤25，则比例因子为��等于1。该比例因子通过严重惩罚使用而阻止RLC控制器过度冷却室内空气温度当外部空气温度低时，过多的冷却能量。这些可变权重的设置避免了将外部空气温度视为观测状态的一部分，从而降低了问题的复杂性。区域空调控制器接收由区域空调的热舒适度和能耗形成的奖励，但分担整个建筑的功率惩罚期限。DR事件期间的整个建筑物需求限制阈值取为15，000 W。��人工数据集生成。在基于规则的操作之后创建人工数据集。PPO代理的角色网络在这个人工数据集上进行训练，以模仿基于规则的动作，包括以下内容：• 监控设定点动作可以每5分钟递增、递减0.5° C，并保持不变• 在一天的正常操作（无DR事件）期间，冷却盘管遵循设定回位监督温度控制策略。在占用时间内，设定点为24° C，而在空闲时间内，设定点为30° C，这是热舒适性界限的上限◦员工的平均工资被认为略高• 监控设定点动作的界限在18 ℃和比芝加哥的平均工资高。这里，工资被假定为80，000美元/年，约为40美元/小时。根据[49]，假设温度上升1摄氏度，生产率下降2%。这导致热不适成本为0.8美元/Kh。商业电力的平均成本为0.0405美元/千瓦时[50]，需求费用为7.89美元/千瓦的电力需求限制违规。当KPI转换为货币惩罚时，与能源价格相比，热不适价格要高得多。因此，在惩罚目标中包括线性加权，��27摄氏度，在占用时间和15摄氏度和31摄氏度之间的非占用时间。• 预冷却是通过降低设定点直到18摄氏度，两个在计划的DR事件之前几个小时，以避免DR事件期间较高的热不适和电力成本• 在DR事件期间，监控设定点增加到 27℃，以降低需求费用。• 为了避免从未占用到占用设定点的早期热不适，包括1.5 h的冷却时间。S. Dey等人能源与人工智能14（2023）1002557占用时间为早上6点至晚上10点。所有五个区域的冷却盘管的开关控制器。数据集因为模仿学习是以状态和行动的形式人为地创造出来的，而没有对所采取的行动的任何回报或后果进行任何阐述。例如，如果状态空间中的一天中的小时是上午9：00（占用小时），并且先前的设定点是30° C，则动作将是将设定点降低0.5° C以朝向27° C的基于规则的监督设定点动作移动。通过随机地从初始室温（室温）、一天中的时间（时刻）、先前的设定点开始以基于一天中的时间和DR事件来形成室温和DR信号（0，1）来创建大的人工数据集。DR事件发生在下午2：30至3：30之间，持续时间在2-2.5小时之间，类似于前面提到的DR假设。这些操作也是根据上述基于规则的条件生成的。生成了一个大型数据集，相当于大约四年的人工元组（状态，动作），因此上面提到的大多数基于规则的动作都包含在这个数据集中。演员网络是在这四年的数据基础上训练的来复制基于规则的控件的操作创建此数据集的优势在于它涵盖并探索了状态空间的很大一部分。因此，当经过训练的参与者网络传递给RL代理，如果RL代理远离基于规则的动作，则其在初始阶段中具有向基于规则的动作移动回的更高概率。如果从基于规则的动作进一步移动的结果最终是积极的，那么RL代理将在训练更新后将策略从基于规则的动作移开。因此，模仿学习方法有助于减少RL控制器代理偏离接受的基于规则的控制太远，防止RL代理在早期训练阶段的不稳定和不稳定行为。基于规则的策略如图所示。图5示出了一个区域的温度响应和所有区域的平均响应。上面的两个图表示西区温度和功率图。其他四个区域对相同的基于规则的控制具有非常相似的响应，如图5所示。下图显示了所有五个区域的HVAC系统的总功耗基于规则的策略的性能如图所示。六、上面两个图显示了西区的温度和HVAC功耗。这里只显示了五个区域中的一个，因为其他区域遵循相同的基于规则的策略，并且具有非常相似的响应。下面的两个图显示了整个建筑物的响应。第三个图用蓝线表示所有区域的平均温度响应，而较淡的蓝色斑块表示所有区域的最低和最高温度。最下面的图显示整个建筑的总HVAC和整个建筑功率。粉红色条带指示DR事件的时间演员网络的模仿训练。在将未经训练的RL代理直接应用于建筑环境的情况下，NN训练在没有先验知识的情况下开始。在这种情况下，NN的权重通常在[-1，1]范围内随机初始化。在模仿学习的监督训练过程中，采用了最小-最大约束，以避免权重过大.在这里，权重被限制在-5到5的范围内。在演员NN中具有大的权重对PPO训练没有帮助，因为演员NN要么被发现忘记了它在监督阶段学到的东西，要么在一些训练更新后导致不稳定的行为限制权重有助于避免这些问题。当将权重限制在较小的范围（如-1和1）时，NN无法减少监督学习中的因此，选择更大范围的[-5，5]有助于减少监督训练中的损失函数这些值[-5，5]是通过试验和错误来选择的，从[-1，1]开始以±0.5的增量缓慢增加边界，如果在一定数量的训练时期内达到可接受的精度，则在这里，监督学习在数据集上执行了总共300个epoch，每个epoch训练800个批次样本图五. 该图显示了西区和使用基于规则的策略的所有区的温度和功率响应。见图6。模仿政策的例子。(For对本图图例中所指颜色的解释，读者可参考本文的网络版如果验证准确度高于90%，则接受NN权重。如果NN在100个epoch内未能达到此精度，则增加最小-最大边界。训练又进行了200个时期，达到了93%的准确率S. Dey等人能源与人工智能14（2023）1002558见图7。图提供了一个不同的例子。通过比较训练的NN的动作输出和来自人工数据的动作来测量准确性。例如，如果在一个训练批次中，在100个样本中，NN输出一个移动的动作，或者将设定点保持在基于规则的设定点动作处或接近基于规则的设定点动作超过90个样本，则其将具有超过90%的准确度。在这种情况下，监督培训达到了稳定的93%的准确率，最后100次批量训练训练的学习率在每100个epoch之后降低10倍，并且以0.0001的学习率开始。训练使用Tensorflow [51]平台和Keras [52]库中的Adamax优化器进行。从以前的文献贡献出发点&。RL控制在建筑物上的应用研究很少依赖于现实和高保真的建筑环境。相反，RL代理通常在简化的状态空间模型上进行测试，这些模型无法模拟真实建筑物的非线性动力学，并且RL代理解决控制任务可能过于简单。本研究通过使用先进控制测试床（ACTB）在一个现实的EnergyPlus小型办公楼上测试RL控制来解决这个缺点。此外，大多数文献在部署到目标建筑环境之前，利用类似建筑环境在这种方法中，可以避免这种早期的预训练开发工作，因为RL代理通过模仿建筑社区和控制工程师所接受的基于规则的策略开始，尽管它是次优的。此外，这不需要模型开发或以前的实际建筑数据。它可以立即部署到一个真实的建筑物，其中RL代理通过遵循模仿的基于规则的策略启动。随后，它评估这个模仿的政策是否是最佳的多目标的控制问题定义的目标，并根据实际的建筑环境中收到的真实反馈。训练和测试过程考虑了31个随机的夏季工作日，其中每集是一天。训练和测试的划分大致以5：1的比例进行，其中训练划分为25天，测试划分为6天。培训每天进行100多次，每天的每一次都是从25个夏季工作日中随机挑选出来的。由于外部气温的差异，有些日子比其他日子更具挑战性，因此座席获得的分数差异很大。图1是不同训练日期期间室外空气温度差异的一个例子。7.第一次会议。培训过程的进度如图所示。8，上图显示了每次发作的7天平均成本，见图8。训练中的进步。见图9。从模仿策略开始，代理达到RL代理下图显示7天平均评分。显示了7天的平均成本，因为这降低了所获得的分数的方差，并且使得在图中描绘每周

下载后可阅读完整内容，剩余1页未读，立即下载