没有合适的资源?快使用搜索试试~ 我知道了~
强化学习驱动的本地交易能源市场与分布式能源管理-加拿大阿尔伯塔大学研究成果
能源与人工智能8(2022)100150强化学习驱动的本地交易能源市场分布式能源Steven Zhanga,Daniel Maya,Mustafa Gülb,Petr Musileka,a加拿大阿尔伯塔大学电气和计算机工程b加拿大阿尔伯塔大学土木与环境工程系A R T I C L E I N F O保留字:需求响应分布式能源(DER)DER集成本地能源市场强化学习A B标准地方能源市场正在成为协调分布式能源发电、储存和消费的工具。与自动化相结合,它们有望提供一个有效的能源管理框架,这是公平的,并带来系统级的节省。 能源市场的然而,取决于代理人-环境相互作用的动态因此,设计适合强化学习代理的市场机制必须考虑这种相互作用。自治本地能量交换(ALEX)一个结合多智能体学习和双向拍卖机制的实验框架。参与者通过市场互动确定其内部价格信号并做出能源管理决策,而不是依赖于预先确定的外部价格信号。本文的主要贡献是检查特定的市场要素和独立的学习代理之间的兼容性。通过仿真实验评估了不同市场属性的效果,并将结果用于确定合适的市场设计。结果表明,市场的真实性保持需求响应功能,而弱预算平衡提供了一个强大的强化信号的学习代理。由此产生的代理行为与两个基线进行比较:净账单费率和使用时间费率。基于ALEX的定价响应速度更快与使用时间相比,社区净负荷的波动。与净计费相比,更准确的可再生能源使用会计将账单中位数降低了38.8%,证实了更好地促进需求响应的能力。1. 介绍需求响应(DR)技术已成为提高分布式能源(DER)价值的流行手段,如屋顶太阳能,同时减轻其间歇性的负面影响。DR方法可以是直接或间接的。间接DR旨在使用激励信号改变客户行为,通常通过货币手段[1直接DR授予电网运营商立即控制执行电网平衡。随着DER的继续采用,DR的集中式方法将遇到可扩展性障碍[1,4 尽管人们努力应对其中一些挑战[7 必须探索其他分散的解决方案[10]。 在这种情况下,交互能量(TE)作为分散式DR的设计框架越来越受欢迎[5,6]。美国能源部网格架构委员会将TE定义为和控制机制,允许整个电力基础设施的供需动态平衡,使用价值作为关键操作 本地受限的TE系统通常被称为本地能量市场(LEM)。代替LEM的正式定义[12,13],我们采用了Mengelkamp等人[12]开发的描述,即通过与叠加能源系统的连接高DR参与率,特别是在LEM内,保持自动化。专家设计的,基于规则的系统最初被认为是用于这一目的。然而,基于学习的方法现在更受欢迎,主要是因为它们的鲁棒性和可扩展性。然而,绝大多数将学习方法应用于LEM的现有方法都没有针对市场机制进行调整∗ 通讯作者。电子邮件地址:pmusilek@ualberta.cawww.example.com Musilek)。https://doi.org/10.1016/j.egyai.2022.100150接收日期:2022年1月19日;接收日期:2022年2月27日;接受日期:2022年3月2日2022年3月12日在线提供2666-5468/© 2022作者。由爱思唯尔有限公司出版。这是一篇开放获取的文章,获得了CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可从ScienceDirect获取目录列表能源与AI期刊主页:www.elsevier.com/locate/egyaiS. Zhang等人能源与人工智能8(2022)1001502用于自动化的算法。考虑到大多数已建立的LEM机制是为人类参与者或基于规则的系统自动化设计的,这尤其成问题。结果是DER利用率不理想,因为LEM没有适当调整以最佳地利用所使用的自动化方法的潜力。这对于强化学习(RL)代理来说是加剧的,这些代理可以快速学习以利用竞争-协作多代理设置中的漏洞Mengelkamp等人在他们的综述中明确指出了这一研究空白,指出“应该对不同交易设计(特别是市场机制)的影响进行全面比较。具体而言,需要评估不同分配机制对市场目标和代理人行为的影响他们后来的工作[16]遵循相同的推理,注意到代理设计和市场设计都会影响最终的系统行为。我们认为,LEM机制应该量身定制,以充分增强其自动化方法的优势,并减轻其潜在的弱点。据我们所知,还没有明确设计实验来确定特定LEM市场机制必须满足的要求,以便与独立学习的RL行为者兼容。本文旨在为填补这一研究空白提供一个起点。我们只关注以下两个问题:• LEM结算机制需要具备哪些特性,适合部署基于RL的自动化?• 由此产生的市场行为是否有效地支持DER渗透率高为了回答这些问题,三个不同的解决机制,涵盖了一套既定的标准拍卖环境进行审查。最合适的市场设计是通过分析为每个机制开发的代理政策。其次,将所产生的LEM交易建模为动态价格信号,并将其经济表现与现有的定价方法进行比较。本文分为五个部分。第2节提供了必要的背景,并描述了相关的工作。第3节介绍了所提出的自治本地能量交换(ALEX),并描述了 这是一个随机博弈。第4节描述了两组实验。 第一组的目的是确定结算机制,适合于市场自动化使用学习代理。第二组对所选机制进行经济分析,并将其性能与几个基准进行比较。第5节总结了主要结论,以及未来工作的可能方向。附录简要介绍了RL [17]A,概述了净计费B的原理,描述了交易能量模拟器T-REXC,并提供了本文D中使用的特定市场设计的细节。2. 背景和相关工作本节提供了对相关工作的深入回顾,重点关注将RL与LEM相结合的文章。为了更广泛的背景 关于LEMs,读者可以参考Mengelkamp的一般性评论,等人[12],Pilz等人[13]的博弈论综述,以及Khorasany等人对LEM结算和市场机制的[14 ]第10段。2.1. 针对本地能源市场的强化学习几位作者研究了RL和动态定价的集中控制的组合。值得注意的是,Kim等人[2]和Lu等人[3]从服务零售商的角度开发了基于RL的动态定价方法。这两篇文章都通过减少对准确的客户端信息的依赖来解决预测参与者对定价计划的响应的困难。 马尔可夫决策过程 基于客户行为模型和偏好制定。 训练一个具有自主学习能力的代理人,使其同时最小化客户成本和最大化服务提供商的利益.这两种方法不同的奖励函数的制定,这是一个主要的影响因素,在RL算法。 Lu等人[3]使用加权 零售商和顾客之和,而Kim等人[2]使用建模效用函数。尽管这两种方法都成功地实现了动态定价策略,但它们仍然依赖于通过效用函数对消费者行为和偏好进行建模。Liu等人[10]通过在以消费者为中心的资源共享经济模型中应用深度强化学习(DRL)来解决其中的一些弱点。Zhang等人[18]训练RL代理管理社区共享的电池,并在TE市场上交易其资源以最大限度地提高经济性。 奖励功能是电池的经济性能。作者表明,即使考虑到电池的运行成本,也Foruzan等人。[19]研究了独立自主学习代理的行为,通过LEM在微电网内交换能量。每个代理人的目标是最大化自己的利润。 管理的DER包括电池储能系统、屋顶太阳能、风能和柴油发电机。参与者的随机行为近似使用随机模型。作者调查了几种微电网配置,并对RL算法的返回、自给自足和公平性进行了深入的超参数研究。Zhou等人。[20]将基于模糊规则的系统与模糊学习相结合 训练代理在对等LEM设置上交换能量资源,该对等LEM设置的定价直接与供应和需求的比率相关。作者研究了几种社区配置的性能,其中包括各种数量的电池储能系统和可再生能源发电资产。他们表明,这样的系统设置通常实现低于分时使用和净计费基线的账单Chen等人。[21]采用DQN变体来自动化在LEM中配备电池储能系统的产消者的交互。 RL代理的动作空间由四个不同的、离散的动作组成,包括买/卖和充/放电操作。 学习策略超越了直觉的、基于规则的策略。它也优于一个纯粹的随机策略,相当于一个零智能代理,最初由Ghode等人提出。[22]作为自动化市场中代理能力的基线。 在另一篇文章中,Chen等人。[23]研究了基于学习的能量代理作为LEM共识机制的功能,用于结算,利润用作代理的奖励。 使用几个消融和敏感性研究,作者表明,经纪人有效地学习如何最大限度地提高自己的利润和市场的效率。Jogunola等人最近的一篇文章[24]使用优先经验重放[25]来增强DQN代理,以最大限度地提高经济效益。Bose等人[26]关注在不同DER渗透水平下固定LEM设置内新兴参与者的交互。作者证明,在这样的环境中,基于RL的代理可以导致部分能源自给自足的出现。 他们还表明,自给自足的程度和代理互动的复杂性取决于DER在市场中的渗透程度。Mengelkamp等人。[27]研究了应用于自动化LEM参与的Erev-Roth RL算法的三种不同扩展。他们发现,与原始的Erev-Roth算法相比,扩展进一步增加了LEM的自足性Mengelkamp等人。[16]比较了点对点LEM与封闭式书籍,双拍卖LEM与结算回合。作者比较了零智能代理和Nicolaisen等人[ 29 ]采用的“智能”代理在两种LEM设计上的性能他们表明,所有的市场场景都提供了类似的经济优势,智能代理使用的点对点LEM略优于其他变体。 然而,他们也指出,在不同的市场上使用一种策略会导致不同的价格趋势,作者最终得出结论,代理策略和市场设计需要共同发展,以保证系统Harrold等人。[30]使用彩虹DRL在微网格中学习套利。Lee等人[31]应用动态定价和日间行车线,S. Zhang等人能源与人工智能8(2022)1001503买那| |Max|Max������多个电动汽车充电站的利润。虽然与本文中提出的方法没有直接关系,但这些研究对于未来在拟议的LEM中使用储能的研究是很好的参考。3. ALEX:自治本地能源交换通过效用函数对客户行为建模的需求以及对预测的严重依赖可能会阻碍鲁棒性和可扩展性传统的DR技术。此外,由于预计在不久的将来将上线的DER的数量,某些基础设施要求可能会对DR系统的有效部署构成额外的障碍。例如,集中控制的通信和计算成本可能变得过于昂贵,特别是对于该结算信号Qrk被表示为包含结算数量和相应价格的元组列表。���重要的是要注意,参与者只收到有关其结算的信息,因此无法获得有关其他参与者行为的信息。在完成内部交易后,社区内任何多余的发电/需求都以零售价格与电网交换。在这篇文章中,我们假设净计费,一个共同的将多余的能量以低于电网的价格出售给电网的惯例���并且从电网中购买价格低于电网的能量卖包括费用。在仪表后面的设置通过推迟费用为社区提供了一个盈利的窗口。这自然会限制内部市场价格的范围如下���最小值=���网格<=���市场 <=grid=max,(4)���高的时间分辨率,以充分捕捉间歇性卖买屋顶太阳能电池板的行为和电动汽车的随机使用模式。考虑到这些挑战,本文提出了一个分布式的,多代理的方法结合了双拍卖市场机制。在设计这种被称为ALEX(自治本地能量交换)的方法时,做出了以下假设• 参与者都是自利的,因此在决策过程中优先考虑自己的经济福祉• 参与者愿意将与间接灾难恢复措施交互的某些决策推迟到自动化(例如,使用RL代理)。• 每个参与单元都配备了智能电表,并且有足够的高分辨率历史数据可用于训练RL代理。• 客户连接的大规模电网是一个无限的总线。3.1. 核心理念从概念上讲,ALEX是一种用于本地化社区的幕后DR技术,使用双拍卖市场作为协调机制。市场参与者是生活在社区内的客户。然而,这可以扩展到仅暂时存在的实体,例如电动汽车。市场采用双向拍卖,结算频率固定。������对于每一个间隔[,+],参与者可以通过提交投标来bidbid =(bid,bid),∈[0.���(1)求最小值,最大值,最大���������我们假设,如果参与者之间的互动是由供求规律主导的,那么ALEX的功能是一个分散的,间接的DR工具。由此产生的定价自然为所有市场参与者提供了平衡供需的经济激励我们使用第4.1节中描述的实验来证明这一点。3.2. ALEX作为随机博弈为了分析所提出的方法的属性,拍卖和策略投标的演员可以使用一个合适的数学模型来描述。ALEX的博弈论表示可以通过将参与者的交互建模为折扣随机博弈���:=(���,L,,A,,)<$���∈ [0. ],∈(0.���其中���是玩家的数量,L是长度为L =的玩家列表���,是状态空间,A是动作空间,表示状态转移概率,是奖励函数,λ是建模期间[0..],而是折扣因子。和A都可以分解为两个独立的分量。和A,如下所示=1××,(6)A=A1××A。���(七)上标是指特定的个体L,而下标是为时间保留的。注意,动作空间A在符号上与在时间步长λ处的特定动作集合λ分开,如在通常使用的���������并要求Max第2节中介绍了RL命名法。状态转移概率定义为任意一组动作的概率������ask =(ask,ask),∈ [0.������������(2)求最小值,最大值,最大���������在时间步长n处获取,如下所示最大���其中出价者和要价者分别传达购买或出售能量的意图。它们由需要交换的能量的期望数量和期望价格组成的元组表示。以Wh表示,并且范围可以从0到指定的最大值。���应将负载设置为适应从历史数据导出的预期最大发电量同样,应设置callbid以适应���∀������∶(���+1���,������)∶=���→���+1(8)类似于RL设置,随机博弈中时间步长为1的奖励或回报定义为:A∶=× A→A,(9)它从(,)映射到实数∈R。������同样,每个代理预期最大负载需求。同样,以美元为单位的价格在目标是最大化自己的回报率(A.1)。因此,所有参与者都使用最小和最大之间的指定窗口。出价和要价在每轮结算结束时成对结算,他们各自制定的政策指南(A.4)和(A.5),根据来自研究中心的观察确定行动指南。���������向每个参与者发出警告������在每一个时间步长,所有的代理人都可以通过以下方式与市场相互作用:������=(���settlement,��� settlement)(3)投标(1)和询价(2)。这导致以下定义������有关市场实施的更多详细信息,请参见附录D。行动������= (bid���, ask���,������),(10)重要的是要强调,在这种情况下,参与者都决定������������价格信号,并通过市场互动做出能源管理决策,而大多数其他DR方法只是让代理人对外部价格信号做出反应其中附加参数保留������用于模型的将来扩展,例如,以定义诸如电池管理或热负载控制之类的非标记性动作S. Zhang等人能源与人工智能8(2022)1001504���������������������������最后,每个代理的状态观测定义如下=(���������������),(十一)表1沉降机制特性。 市场属性设置���������−1个人经济预算真实性哪里������ 和������ 分别是负荷需求和发电量,合理性效率平衡时间���,���和���������是在时间���-1时收到的结算。M1是是强假注意,t−h1e跃迁概率是由所有主体的集体作用���但由于两两结算机制、市场设计、观察空间等原因, 无法完全访问L.���这确保了所开发的模型是一个真正的随机博弈。保证至少有一个稳定的纳什均衡存在于A,只要A和A是有限的。这一条件可以通过将价格限制在合理的小数位精度来保证(例如,���4或5位有效数字,通常用于银行业务)。A在逻辑上受前面由(4)定义的条件限制。因此,也必须是有限的,因此ALEX的每个实现都保证至少有一个稳定的纳什均衡。3.3. 使用强化学习的由于通过所开发的随机博弈的交互需要战略能力,因此自动化参与者(通常是生产消费者,但理论上是任何并网实体)与LEM的交互是对准确建模客户行为困难的合理回应。���所提出的方法围绕训练RL代理执行市场交互和能量管理动作,补偿非最优的人类行为。RL理论上非常适合这项任务,因为在前面的小节中描述的随机博弈等价于在[32]中概述的一组既定标准下的马尔可夫决策过程。本节中开发的框架被设置为与算法无关。然而,第4.1.1节中描述的后续实验采用了独立的Q学习。在这篇文章中,奖励函数,������=(利润������������M2是是强真M3是是弱真4.1.1. 实验设计本实验的重点是第一个研究问题:什么是所需的属性的LEM结算机制,适合部署基于RL的自动化?这个实验的结果还将显示不同的市场属性如何影响RL代理学习的策略。由于环境(即, 市场机制和其他主体的参与策略)起着与学习算法同样重要的作用,因此必须建立最适合的市场机制,以便随后研究和实现更复杂的主体设计、动作和策略空间。实验的范围是精心管理的 放大结算机制对结果代理政策的影响,同时提供强大的收敛界,尽管ALEX的属性作为一个部分可观察的,非平稳的环境。作为提醒,本研究中使用的市场设计和相互作用规则在附录D中详细描述。在这个实验中,测试了具有不同市场属性的三种不同结算机制:1. 平均价格(M1):如果买价大于或等于卖价,则交易结算。结算价是买入价和卖出价的平均值。2. 完全匹配(M2):卖方和买方从可用价格列表中选择出价和要价。如果投标价格������其中,���������等于要价3. 精确价格(M3):如果买入价格高于成本,LEM=已结算的投标价格×已结算的投标价格,(13)���等于或高于要价。买家从拍卖会上买下���������拍卖人应当将拍卖标的以拍卖人的名义出售给拍卖人。利润,LEM=,已结算-要求×,已结算-要求,(14)���问问普莱斯。���������cost���,grid=,���grid−buy×,���grid−buy,(15)profit���,grid=,���grid−sell×,���settled−sell,(16)和,已结算���电价-投标价+电网���电价-购买价=电网电价(负荷需求),(17)任何双向拍卖机制都可以用以下属性来描述[33]:个人理性1,经济效率2,预算平衡3和真实性4。一个理想的机制满足所有四个属性,但它不能在实践中实现[33]。由于ALEX的设计和RL剂的使用确保了经济效益和个人价值,���������在理性上,三种解决机制是可以区分的������,settled−asks+������,grid−sell=������(generation).(十八)其他考虑因素,如社会福利成本,被明确排除在外,因为目前的目标是研究参与者和系统的行为使用纯经济表现。然而,这些因素可能会被纳入未来的研究。由于RL代理使用高频智能电表数据进行训练,因此可以省略显式客户行为模型。这是因为足够数量的数据可以更好地捕捉细微差别和个性化的客户行为模式,同时保持可扩展性。4. 实验与讨论4.1. 解决机制一个典型的市场参与者可以用一个产消者的家来代表。家庭可以包含发电、存储和可控负载的任何组合。对于实验,发电和负荷源直接取自智能电表数据。由于本文的重点是研究LEM仅凭真实性和预算平衡,如表1所示。针对所有考虑的解决机制,评估了具有不同社区供应/需求比率的三种情景:过度供应(10:1),过度需求(1:10)和完美平衡(即相等的供应和需求)。每种机制都是根据代理人制定的政策以及由此产生的市场行为进行评估的,这些市场行为基于新兴的均衡出价、要价和结算价格,并提供相同的培训课程。其目标是找到一种遵循供求规律、与RLagent学习1个人理性声明任何参与者都不应该因为加入拍卖而2 在经济有效的系统中,在所有交易结束时,应该在出价最高的参与者手中3预算平衡有两种变体:弱平衡和强平衡。在弱预算平衡系统中,一部分转移的资金也会流向拍卖商;这是参与者之间的资金转移之外的,这是强预算平衡系统中唯一的交换类型4.在真实市场中,参与者的主导策略是:报告价格在他们认为应该是该项目的真实价值交换。S. Zhang等人能源与人工智能8(2022)1001505| |行为预计这一机制将产生以下结果:• 供应过剩情况:发电商竞争需求,压低要价,随后是出价• 超额需求案例:消费者争夺供给,推高了买价,卖价随之上涨。• 供求相等的情况:买入价和卖出价收敛在可用价格范围的中间• 对于所有情况:平均买入价、卖出价和结算价都应该有较低的价差。考虑一组n= 4的学习参与者。两个具有>的参与者作为购买者,其余两个具有的参与者作为购买者。������<���商人充当卖家。每种类型的参与者中有两人保持竞争 市场的两端,应防止垄断行为。稳态(平坦的,时不变的)能量分布被用于每个代理,集体负载需求和供应对应于先前给定的比率过高的买入/卖出价格可能导致结算价格变得不稳定。由于这种风险,M1被取消资格。图图2显示了沉降机制M2的结果。与前面的机制不同,M2在任何情况下都没有明显的收敛性。一个可能的解释是,M2满足理想的双向拍卖市场的条件,根据Myerson-Satterthwaite定理[ 33 ],这是不可能实现的另一种可能性是,强大的预算平衡大大减少了成功解决的数量,这导致在这个非平稳环境中的稀疏奖励。因此,尽管理论上存在纳什均衡,但由于缺乏反馈,代理人不太可能发现它。虽然在给定足够长的训练时间的情况下,M2可能收敛,但是使用与M1和M3相同的仿真参数时,它不能显示收敛的事实使得它不太理想。RL代理通常被期望实时更新数据流上的策略,这比模拟慢得多目前,智能电表历史数据仍然缺乏。因此,如果这个系统部署在真实环境中,它必须学习���LEM=∑���������(十九)实时的。 结果,市场机制M2被取消资格,���LEM∑���������.不适合现实世界的应用。图3显示了沉降机制M3的结果。 类似于稳态负荷曲线的使用减少了代理人此设置将观察折叠M1,买入价、卖出价和结算价在两种不平衡情况下都紧密聚集在价格范围的预期一侧,甚至更多。空间的每个代理到一个单一的点和修复������或������向余留事项处理紧紧地在一起。然而,与M1不同,平衡的情况显示出类似的即可. 这允许通过仅学习价格策略来进一步改进hashsk实验的纯度。从单个代理人的角度来看,这将实验转化为部分可观察的、非平稳的多臂强盗,其中臂的数量对应于离散价格行为的数量。���对于每个单独的参与者,可以使用独立的表格Q学习算法,具有贪婪探索策略和学习速率,如附录A所述。���这保持了松散的收敛保证,尽管产生的环境的属性[34]。在本实验中,将λ设置为0.1,λ设置为0.98,λ设置为0.1。从第100集开始,将对x1和x2的值进行退火,以平衡探索和收敛速度,乘数为0.98每一集在这种简单的设置下,如果代理人未能制定反映上述标准的政策,则相应的机制将被视为不可行,无法随后使用。本实验使用附录C中描述的T-REX模拟器进行。模拟在配备Ryzen 93900X处理器和32 GB 3200 MHz DDR4内存的工作站上运行。在这个特定的设置中,每集大约需要5分钟。详细的实验配置可以在项目的GitHub存储库中找到[35]。4.1.2. 结果和讨论回想一下,在ALEX中,参与者通过市场互动确定价格信号并做出能源管理决策。因此,研究代理人的行为以及由此产生的结算价格是非常重要的。图1示出了对于结算机制M1,针对出价和要价学习的策略,以及作为密度图的结果结算价格。一般来说,对于两种不平衡的情况,买入价、卖出价和结算价都紧密地聚集在价格范围的预期一侧。 然而,平衡的情况揭示了一个关键问题。 虽然结算价格集中在价格范围的中间(正如预期的那样),但买入价和卖出价都偏离到接近极端的位置。这种现象是由于M1缺乏真实性造成的。代理商没有提交投标的动机,询问与他们认为应该是能源价值相对应的价格(接近结算价格)。由于M1将结算价格计算为每对买入/卖出的平均值,因此该策略增加了达成有利结算的机会。然而,与此同时,它也增加了奖励,如果一个对手遵循一个真实的,行为,价格集中在价格区间的中间。因此,可以得出结论,M3具有真实性属性。 代理人几乎没有动力设定偏离结算价格太远的出价/要价,结算价格应该接近每个供需比率的能源真实价值。因此,M3符合上述选择标准,有资格进行进一步研究。在最初的实验中使用的供求比率是相当极端的。对结算价格进行更均衡比率的检查应能更全面地了解市场行为。因此,将1.5:1和1:1.5的比例添加到M3的实验中。如第4.1.1节所述,使用退火将模拟扩展100集。如图4的结果所示,价格略低于供需比为1.5:1的平衡情况,略高于供需比为1:1.5的平衡情况。这证实了供求法则的主导地位,因为结算价格遵循供求比率。进一步的实验与更多的供应和需求的比例将进行开发的价格行为的经验模型总之,实验表明,有效的RL代理训练需要弱预算平衡,从而产生更强,更密集的奖励信号。真实性是新兴政策真正反映供求规律的必要条件。在具有这两个属性的LEM中,代理人的个体理性使参与者之间交换的价值最大化,从而保证收敛的经济效率。即使没有实现完美的预算平衡,这可能是部署的理想选择:拍卖人的小额利润可以用来维持市场运作所需的基础设施。1.1. 经济研究1.1.1. 实验设计本实验的重点是第二个研究问题:所产生的市场行为是否有效地支持DR的LEM与高渗透率的DER?这项调查是通过比较所提出的方法与传统的定价方案,如净计费。5、使用时间如前所述,战略这种行为显然是最佳策略在这种情况下。价格差异是有问题的,特别是当连续的、无界的行动空间被用于价格选择时:5净计费和净计量之间的区别在附录B中阐明S. Zhang等人能源与人工智能8(2022)1001506Fig. 1. 针对第70集至第100集在M1下运营的代理商的出价、要价和最终结算价格的验证策略。直方图显示了离散的 代理商的行动策略和由此产生的结算价格。价格的模式被突出显示并由垂直虚线显示。直方图的概率密度函数覆盖在顶部,它是用scikit-learn Python包中的高斯KDE函数用默认参数近似的图二. 针对第70集至第100集在M2下运营的代理商的出价、要价和最终结算价格的验证策略。直方图显示了离散的 代理商的行动策略和由此产生的结算价格。价格的模式被突出显示并由垂直虚线显示。直方图的概率密度函数覆盖在顶部,它是用scikit-learn Python包中的高斯KDE函数用默认参数近似的在实验中,市场均衡中的价格是由供求规律支配的(见图1)。4).通过对不同比例的供给和需求进行额外的模拟,可以通过插值获得价格行为的经验模型。这种模式可以作为一种简单的方法来确定当地市场价格,而不需要建立一个实际的拍卖市场。当地市场的供求比可以从计量数据中得出。经济研究是使用一个有十个参与者的住宅社区微电网进行的。由于缺乏来自加拿大的合适的智能家居数据,使用了来自公开可用的SunDance数据集[36,37]的能量分布。十个能源配置文件已被随机选择 , 以 组 装 虚 拟 社 区 。 所 选 客 户 的 ID 如 下 : 10011 、 1001625 、1002714、10068、100703、1001420、1003173、1001230、100114、100196。所有参与者都是参与能源交易以获得经济利益的产消者。 假设微电网位于社区智能电表后面的单总线上。与前面的实验类似,不执行负载整形。为了说明测试社区供需行为的变化,一个单一的 夏天(2015年6月1日)绘制在图。 五、该实验评估了通过启用基于设定能量交换价格的本地能量市场而引起的电费的变化。 当地的供应和需求。由于当地市场价格随时间变化且取决于供求关系,因此基于LEM的定价也可以与基准TOU定价时间表进行比较S. Zhang等人能源与人工智能8(2022)1001507⎪⎪grid⎨⎧NB,购买NB,卖出NB,gen式中,Eq是能源供应,Eq是能源需求,电网图三. 针对第70集至第100集在M3下运营的代理商的出价、要价和最终结算价格的验证策略。直方图显示了离散的 代理商的行动策略和由此产生的结算价格。价格的模式被突出显示并由垂直虚线显示。直方图的概率密度函数覆盖在顶部,它是用scikit-learn Python包中的高斯KDE函数用默认参数近似的1.1.2. 结果和讨论系统范围内的市场模型是使用以前的实验数据,辅以四个额外的需求比(1:1.1,1:2,1.1:1,2:1)。 由此产生的定价模型如图所示。六、 请注意,在实际设置中,每个参与者的负荷需求曲线和DER可用性是唯一的,ALEX代理可以开发个性化的定价计划。 本实验的目的是评估基于ALEX的交易系统的经济性能,并将其与不使用单独定价计划的普通费率进行比较。由此得到的价格曲线方程如下:在附录B中描述的净计费中,整个社区被放置在社区仪表之后,并且在对等体之间直接交换的能量不产生TD费用。表2的结果显示,社区市场的实施可以使整个社区在财政上受益,使社区总账单减少35.9%。 个人账单减少的平均值和中位数分别为74.51%和38.8%。费用的减少是由于更有效地利用了当地能源,更准确地反映在当地市场价格上。通过将整个社区置于仪表后面,那些无法负担购买和购买费用的人拖延自己的DER这是因为他们有直接获得过剩电网NB,负载(,)=NB,gen���(,)≥grid���(,)≤grid���(二十)与从电网购买相比,它们的邻居的价格可能更低。同样,首先将多余的发电量出售给同行,因为利润可能更高−0.0254���������头如果购买直接卖给电网换句话说,该设置可以进一步0.0280+ 0.1299如果出售,社会化DERs的好处虽然不能直接比较,但最近通过利用能源存储,以及55%,当利用光伏和阿利什岛作者:Jogunola et al.[24]平均经济效益为35%电力从电网买电时,NnBd,loeard净计费,电网是在向电网出售电力时的电价,存储. 虽然所提出的方法目前只使用光伏,在未来的研究中将增加储存类似或更好的性能[24]这是一个很好的预测。净计费和TOU 是使用分时电价时的调整系数。如前所述,当地市场价格随时间变化,通过将该模型应用于特定的能源分布,可以获得能源社区的当地市场和选定日期的定价方案,如图所示。 7对于图中的样本配置文件。五、使用该模型确定的内部价格与全天社区的供求比率相对应。例如,在午夜,当太阳能发电量为零时,向同行出售能源的价格为0.1449美元,这与从电网购买能源的价格相同。早上7点,当太阳能可用时,向同行出售的价格相应降低。上午9点左右,当发电量明显高于需求时,向同行出售的价格降至0.069美元,这与在净计费下向电网销售相同计算了所有参与者在此价格曲线下的经济绩效,并与净计费进行了比较。该比较的结果显示在图8中,并总结在表2中。作为提醒,社区参与者和网格之间的交互规则 详见附录D。根据业务原则供需依赖。这类似于开发分时电价背后的理念,分时电价使用随时间变化的供求关系,而不是专注于任何特定的区域。 因此,这两种方法进行了比较,以量化其相对性能。安大略TOU在加拿大被用作基准,并且经常被没有TOU的司法管辖区(如艾伯塔省)的公用事业公司参考。图9显示了两个定价表,显示了它们的形状之间的鲜明对比。由于发电量的增加,当地能源价格在中午下降,而TOU增加,这表明在此期间负荷大于发电量。 虽然由于当地市场上不存在的商业和工业负荷,这可能是真的,但事实仍然是,TOU与当地市场上的负荷和需求的实际平衡不相关。测试场所。虽然这种脱节可能是第2节中提到的缺乏参与TOU的原因,但它也表明需要非常本地化,高度相关的定价信号,以增加,,L价格是S. Zhang等人能源与人工智能8(2022)1001508见图4。 针对在第100集至第200集的M3下运营的代理商的出价、要价和最终结算价格的验证策略。探索因子和学习率退火从第100集开始,在每集开始时应用0.98的乘数。直方图显示代理的离散动作策略的概率以及由此产生的结算价格。价格的模式被突出显示并由垂直虚线显示。直方图的概率密度函数覆盖在top,这是用scikit-learn Python包中的高斯KDE函数近似的,带有默认参数。图五、201 5 年 6 月 1 日 夏 季 一 天 的 住 宅 社 区 测 试 的 总供应和需求概况。S. Zhang等人能源与人工智能8(2022)1001509见图6。为测试当地市场开发的定价模型。虚线显示了由(4)定义的价格边界。价格点之间的线性回归导致一个非常适合的通用数学模型。见图7。 用于进行交易的ALEX内部价格。表2ALEX vs. Net Billing(NB).能源(kWh)能源(kWh)能源(kWh)能源(kWh)能源(kWh)从Grid购买在本地购买在本地销售到Grid销售NB亚历克斯%NB亚历克斯%NB亚历克斯NB亚历克斯%NB亚历克斯100110.10−0.28383.26.832.3565.59–4.4812.880100–12.881001625 0.80 0.13 83.2 10.73 2.28 78.751002714 4.34 3.26 24.8 32.45 13.10 59.6310068 2.80 1.55 44.7 22.37 4.08 81.76100703 2.35 1.32 44.0 22.47 5.94 73.561001420 2.21 1.47 33.6 17.63 11.96 32.161003173 7.56 5.09 32.7 61.73 22.00 64.361001230 3.55 2.69 24.2 24.89 8.03 67.74100114 5.22 2.70 48.2 49.55 12.65 74.471001965 6.50 4.78 26.5 50.78 19.07 62.45共计35.43 22.70 35.9 299.44 101.46 66.12 198.00 115.40 0 100 115.40S. Zhang等人能源与人工智能8(2022)10015010见图8。 净计费和ALEX之间的电费比较。图9.第九条。 与安大略省 夏季分时电价相比的当地市场定价时间表。管理DERs和整个系统的效率。ALEX是一种高度可扩展的分布式方法,可以以低成本生成高度相关的定价信号。5. 结论和今后的工作DR技术提供了一种有效的手段来管理DER。 随着安装的此类资源越来越多,能源组合变得越来越复杂,其管理和协调应实现自动化。 本文探讨了使用多代理强化学习自动化LEM的要求。ALEX是一个LEM框架,可以使用任意的封闭式账簿,双重拍卖结算系统。它是用来识别的市场属性,驱动独立的Q学习代理的政策,以遵循法律的供应和需求。在建立适当的市场结算机制后,将突发市场行为与传统DER集成技术进行了比较。第一个实验训练了一组具有三种市场配置的代理人,这些市场配置由它们的一般属性区分。结果表明,在双向拍卖的市场中,真实性是集体决策反映供求规律的必要条件。第二个要求,弱预算平衡,有利于产生更强,更密集的奖励信号,足以训练交易代理人。这些属性,加上代理人的个人理性,最大限度地提高经济效率,减少弱预算平衡的影响。第二个实验比较了LEM的行为与基于净计费和使用时间(TOU)的市场。由于ALEX中的一致定价强烈反映了供求规律,因此产生的价格信号比TOU更敏感和相关。这一信号可能会进一步提高DER利用的有效性。反过来,这些效率的提高将在整个电网中向上传播。在试验社区的经济表现中可以观察到这样一种影响。使用所提出的方法,S. Zhang等人能源与人工智能8(2022)10015011∑∑降低电费,提高电网效率和稳定性。(())+1������������你好���������������与净账单相比,整个社区的账单减少了35.9%。就个人客户而言,平均及中位账单减幅分别为74. 51%及38. 8%本文提出的研究结果奠定了关键的基础,其中,k是贴现因子。在给定当前状态或当前状态-操作元组(,)的情况下,的期望值������������作为状态值(������)=E(���|���、���(���)、( A.2)未来的工作。我们计划研究电池储
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功