没有合适的资源?快使用搜索试试~ 我知道了~
能源与人工智能13(2023)100246燃料电池混合动力汽车能量管理的模糊REINFORCE函数逼近强化学习郭亮a,*,李忠良a,b,*,拉希德·奥特比ba,高飞ca艾克斯-马赛大学,LIS UMR CNRS 7020,法国bUniversit'edeFranche-Comt'e,UTBM,CNRS,institutFEMTO-ST,F-90000Belfort,FrancecUTBM,CNRS,institut FEMTO-ST,F-90000 Belfort,FranceH I G H L I G H T S G R A P H I C A LA B标准• 应用强化学习解决能源管理问题:一种传统的序贯决策优化方法约束问题。• 无模型的REINFORCE是一个蒙特卡洛策略梯度强化学习,可以通过与环境,没有建模或历史数据。• 功能 辅 助 器与模糊推理 系统 到 approX imate the加强政策功能。• 在不影响策略梯度方向的前提下,提出了模糊基线函数来A R T I C L EI N FO保留字:能源管理策略燃料电池混合动力汽车强化学习模糊推理系统模糊策略梯度硬件在环A B标准针对燃料电池混合动力汽车(FCHEV),提出了一种新的自学习能量管理策略(EMS),以实现燃料电池混合动力汽车(FCHEV)的氢气节约和电池的正常运行。在EMS中,提出用模糊推理系统(FIS)来近似EMS策略函数,并通过策略梯度强化学习(PGRL)来学习策略参数。因此,本文首次提出并研究了EMS问题的模糊REINFORCE算法。模糊REINFORCE是一种无模型的方法,EMS代理可以通过与环境的交互来学习自己,这使得它不依赖于模型的准确性,先验知识和专家经验。同时,为了稳定训练过程,在不影响策略梯度方向的情况下,采用模糊基线函数对基于FIS的值函数进行逼近。此外,还可以克服传统强化学习计算量大、收敛时间长等缺点。硬件在环实验验证了所提方法的有效性。同时验证了该方法对驾驶条件和系统状态变化的适应性。* 通讯作者。电子邮件地址:liang. lis-lab.fr(L.Guo),zhongliang.li @ univ-fcomte.fr(Z.Li)。https://doi.org/10.1016/j.egyai.2023.1002462023年2月26日在线提供2666-5468/© 2023作者。由爱思唯尔有限公司出版。这是一篇开放获取的文章,获得了CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表能源与AI期刊主页:www.sciencedirect.com/journal/energy-and-aiL. Guo等人能源与人工智能13(2023)10024621. 介绍近年来,在能源危机和低碳要求的双重压力下,传统化石燃料汽车产业面临着严峻的形势。氢能因其环境友好、储量大、生产途径多样等特点,越来越受到各国的重视。因此,燃料电池混合动力电动汽车(FCHEV)由于其环境友好性和具有竞争力的车辆性能而吸引了越来越多的关注[1]。在混合动力电动汽车的控制框架中,能量管理策略(EMS)是通过调节不同能源之间的功率分配来使整个动力系统更有效地工作的关键因素。EMS方法通常可以分为三类:基于规则的方法、基于最优控制的方法和基于学习的方法。基于规则的EMS是根据系统的特点建立规则。在不同的基于规则的EMS方法中,基于模糊逻辑规则的EMS由于其实际有效性而最具吸引力[2]。然而,EMS规则的设计在大多数情况下高度依赖于专家经验[3]。能量管理问题可以看作是一个有约束的水平序列优化问题[4]。在各种求解方法中,基于EMS的动态规划(DP)可以提供数值全局最优解[5]。然而,在实施基于DP的EMS之前,必须知道车辆的操作条件和模型随机动态规划(SDP)[6],庞特里亚金使用这些方法,准最优解可以通过实时实现。然而,需要精确的系统模型和未来驾驶条件的信息来实现高性能[9,10]。强化学习(RL)作为一种机器学习,在EMS开发中越来越受到关注[11]。 当应用RL时,约束序列决策优化问题的解可以通过与环境交互来逐步学习,而不依赖于系统模型和驾驶条件的先验知识。基于RL的方法具有适应环境变化的潜力,如能源的模型退化、车辆行驶条件或驾驶员行为的变化等。Q-Learning作为一种基本的基于值的强化学习方法,已经在各种混合动力汽车中提出,以解决能源管理问题[12,13]。基于Q-Learning的方法的主要缺点是它只适用于离散的动作空间和状态空间,而EMS需要在连续的动作和状态空间中实现针对强化学习中的连续空间问题,给出了其求解方法。通常涉及一个功能评估,以评估价值功能或/和策略功能。所使用的近似函数可以是线性的或非线性的。通过对提取的状态特征进行线性组合,实现了线性函数 例如,多项式、傅立叶基、Corse编码和瓦片编码是提取状态特征的常用函数[14,15]。神经网络、高斯函数等非线性函数逼近器一般具有更好的泛化能力,适应更多场景。在[16]中提出了一种基于高斯的RL非线性函数逼近,解决了线性函数逼近的信息损失问题。深度神经网络已被广泛应用为强化学习的函数逼近方法。大量的深度强化学习(DRL)算法已经被迅速开发和研究[17]。对于EMS问题,已经提出了DRL,如深度Q网络(DQN)[18]和深度确定性策略梯度(DDPG)[19],并取得了有趣的结果[20]。然而,基于深度神经网络的非线性函数逼近存在计算复杂度高、超参数调整困难等缺点,阻碍了其实际应用[21]。模糊推理系统(FIS)是在模糊集合上定义输入、输出和状态变量的系统。它抓住了人脑思维的模糊性,可以模仿人的综合推理来处理常规数学方法难以解决的问题[22]。与神经网络相似,FIS也具有良好的泛化能力和函数逼近能力。FIS函数近似器在强化学习中的第一个应用是模糊Q学习(FQL),其中使用FIS引擎来近似状态-动作值函数[23]。在能源管理中,FQL被应用于解决能源管理的最优化问题[24,25],以减少能源损失,提高效率和经济性。在我们以前的工作中,也提出了一种基于EML的燃料电池混合动力汽车EMS,[26]以延长燃料电池的寿命即使计算量很低虽然在这项工作中已经证明了这一要求的合理性,但Q-Learning的固有缺点,例如值高估和大的训练方差,并没有得到很好的解决。为了克服FQL的缺点,FIS也可以用作策略函数逼近器以形成模糊策略梯度(FPG),并且在策略梯度学习范例中通常可以实现更快和更平滑的收敛[27]。蒙特卡罗策略梯度(Monte-Carlo Policy Gradient,简称REINFORCE)是一种策略梯度RL方法,可用于求解连续状态离散动作空间。同时,在学习过程中,智能体可以探索动作空间,并通过在目标动作附近进行小扰动来避免陷入局部最优[28]。本文提出了一种基于模糊REINFORCE的混合动力电动汽车EMS方法,该方法将FIS应用于蒙特卡洛策略梯度中的策略函数估计。此外,为了抑制REINTRONIC的训练方差,本文还使用了模糊基线函数[29]。由于所提出的方法的无模型特性,EMS控制器不需要精确的系统模型。最优控制可以通过与环境的相互作用来实现。此外,学习模糊REINFORCE基于EMS也表现出令人满意的鲁棒性未知的外部输入和不同的系统状态。因此,本文的主要贡献如下:1) 模糊REINFORCE,作为一个无模型学习的EMS,最初提出来解决FCHEV的能量管理问题2) 提出了模糊基线函数来抑制模糊再训练算法的训练方差;3) 所提出的方法的适应性的驾驶条件和系统状态的变化是合理的。4) 建议的模糊REINFORMATION已成功地实现在单片机和实时,这证明了它的低计算要求。第二部分介绍了混合动力电动汽车能量系统的建模,包括燃料电池、蓄电池和整车动力学模型。第3节描述了所提出的基于模糊增强的能量管理策略的原理。第4节给出了仿真和硬件在环实验结果的分析。论文最后在第五中结束。2. 燃料电池混合动力汽车能量系统FCHEV的研究能量系统如图1所示。其动力源由燃料电池(FC)系统和蓄电池系统组成。由于FC的动态响应慢,电池主要用于吸收多余的功率并提供瞬时大功率输出。它们都通过DC/DC变换器共享直流母线,用于提供负载所需的功率或吸收负载能量。本文将对各部分的具体模型进行分析2.1. 燃料电池模型质子交换膜燃料电池(PEMFC)是一种低温L. Guo等人能源与人工智能13(2023)1002463F蝙蝠FCFC60bat()-蝙Fig. 1. 燃料电池混合动力汽车能源系统。燃料电池是一种以氢气为燃料,以聚合物质子交换膜为导电介质的电化学装置。 产品只是水。PEMFC堆的单电池电压V电池可以表示为[30]:辅助系统被认为是恒定电流负载IAUX。燃料电池汽车的车型参数参考阿贡国家实验室(ANL)在模型中n 电 池=370,电极有效面积为 Afc=282cm2 ,阳极氢气压力高于大气压50kPa,阴极氧气由空气压缩机从空气中获得。如图2所示,当电流为439.8 A时,FC功率达到最大功率117.8 kW,效率为48.57%;当电流为63.2 A时,FC效率达到最大效率55.21%,功率为19.9 kW.对燃料电池模型的参数进行拟合,以匹配Mirai 关于Mirai I车辆数据的更多详细信息,请参见[32]。2.2. 电池模型使用简单的一阶电路模型对电池单元进行建模[33]。电池组的模型是根据单电池单元模型串联和并联实现的。开路电压VocΔTSRT(PHO)电池组的等效电阻Rbat可以表示为:V细胞E0+-lnP2PV=NV=nFnFH2O2(一)OCSoc细胞(六)RT (ifc+i损失)RT(Ilim)Rbat=NsRcell-αFlni0-nFlnIlim-ifc-ifcRohmNP其中E0= 1。23 V为标准大气压下燃料电池反应的开路电压,R= 8。3145是气体常数,T=333. 15 K是燃料电池温度,R= 8。3145是气体常数,T= 333。15 K为燃料电池温度,Δ T=T-273。15= 60K,n=2,=96485是法拉第常数,α=1是传递系数,P是反应物和产物的局部压力是电流密度。i损失= 2 mA/cm2是电流损耗,i0= 0。003mA/cm2是交换电流密度。 I lim= 1.6 A/cm2 是极限电流密度。R欧姆=其中Voc,cell是单个电池的开路电压,Rcell是电池等效电阻,NS是串联电池的数量,NP是电池组的并联电池。对于单电池组,根据图1所示的映射函数,V oc、cell和R cell取决于电池的荷电状态(SOC)。第3(a)段。电池组的输出电流Ibat和电池荷电状态SOCbat的演变由以下等式表征。Voc-V2-4RbatPbat0的情况。11Ω是燃料电池的电阻。对于FC堆栈,模型如下:Vfc=ncell我蝙蝠=SoCSoCOC2R蝙蝠0特岛0Q dt(七)Ifc=Afc当Ibat>0时,电池放电,当Ibat0时,电池-<其中ncell是单个FC的数量,Afc是FC电极板的有效面积。然后,FC电堆的氢气消耗模型可以推导如下[31]:特里被指控。Qbat是电池容量。考虑电池侧DC/DC转换器的功率损耗,电池输出功率可以表示为:mstech=MH Ifc =MH2Pfc(三)P′={Pbat}n放电(Pbat>0)(八)22nFnVfcF蝙蝠Pbat/η电荷(Pbat0)<其中mstech2 是氢的消耗速率, 是氢的摩尔质量。Pfc是FC的输出功率转换器其中P′是双向转换器的输出功率,其模型将只关注其功率特性。FC的DC/DC转换器的效率模型为:Pfc=Pfc′/ηdc+Paux(4)充电效率被认为是ηcharge=95%的恒定值,放电效率与η放电= 94相似。百分之四十四在我们的应用中,所研究电池的容量设定为6.6 Ah,标准电压为244.8 V,这也是参考ANL [32]报道的丰田Mirai I的参数。其中P′是FC系统的输出功率。认为P′是等于来自控制策略的功率命令ηdc是有效的。燃料电池用DC/DC变换器的效率 P aux是辅助系统,它包括空压机电机功率、水热管理系统功率和其它辅助控制系统功率。那么辅助系统功率模型如下:P辅助=P空气+I辅助VfcP空气=2πT空气N空气(五)其中T空气和N空气分别是空气压缩机的扭矩和速度。空气压缩机的功率与燃料电池的工作功率有关当燃料电池的功率较小时,空气压缩机不工作。当燃料电池的功率大时,空气压缩机的所需功率增加。对于其他部分,图二、燃料电池 的输出电压和效率。(二bat=蝙蝠/L. Guo等人能源与人工智能13(2023)100246422=[][()()]-=()下一页DT表2车辆所需功率模糊表。模糊集NHNMNLZOPL下午pH典型值(kW)-50-20-100102050表3电池系统功率模糊表。图3.第三章。电池的特性。2.3. 车辆动力学模型最大JTr t dt0假设车辆在坡度为θ的道路上以速度v向前行驶,其动力学函数为:Fm=Fair+Ff+Fs+Far(t)=-mstecH(t)-k。SOCbat(t)-SOCref)2其中r(t)是即时奖励,它包含两个部分。第一部分是关于氢消耗率mstecH2(t),第二部分是关于氢消耗率m stecH 2(t)。=1CD Aρv2+Gfcosθ+G sinθ+mdv(九)以将电池的SOC维持在安全范围内以使其长时间工作,并且SOCref是与电池特性 EMS专用于确定Pfc(t),t∈其中,Fm表示由电机提供的驱动力,Fair表示空气阻力,Ff表示滚动阻力,Fs表示斜坡阻力,Fa表示加速阻力。ρ和CD分别代表空气密度和空气阻力系数。A表示车体的迎风面体积,v表示车速。m表示车辆质量。Gmg表示车辆的重力,f表示滑动阻力系数。车辆所需功率为:Pveh=Fmv/ηm(10)式中,Pveh表示电机所需功率,ηm表示电机的传动效率。根据功率平衡,电动机所需的功率由燃料电池提供,电池:0,T使用可观测量P veh t,SOC bat t 以实现目标函数J的最大值。3.2.混合动力电动汽车能量管理问题的模糊区间系统模糊逻辑模仿人脑一个基本的模糊推理系统包括四个部分:模糊器、解模糊器、推理机和知识库。基于模糊推理系统的控制是解决能量管理问题的一种有效方法。在我们的应用中,EMS处理多输入单输出FIS控制系统。如图 4、crisp输入是系统状态s =[P veh,SOC bat ],crisp输入是系统状态s = [ P veh,SOCbat],输出是控制系统的动作a=[Pfc]。不P′ ′利用模糊化器,能量系统的模糊状态x= [x1,x2,veh=Pfc+Pbat(11)对于所研究的车辆,参数如表1所示,总机械传动效率设定为恒定值90%。车辆的参数设计与ANL[32]报告的丰田Mirai I FCHEV相匹配。表2和33. 模糊策略梯度EMS3.1. EMS问题公式化EMS的目标是通过在不同的能源之间瞬时分配需求功率来优化车辆性能。在这项工作中,目标是在保持电池SOC的同时最大限度地减少燃料(氢)消耗。目标函数在数学上表示为瞬时奖励的积分表1车辆参数。车辆参数质量2500kg迎风区1. 8平方米空气密度1. 25kg/m3空气阻力系数0. 3CD滚动摩擦系数0.01重力加速度9.8 m/s2TEM可以由状态变量的预定义隶属函数导出。在S. P veh的模糊集[“NH”、“NM”、“NL”、“ZO”、“PL”、“PM”、“PH”]的含义如图在图5(a)中,“NH”和“PH”的隶属函数采用Z形和S形,而其它隶属函数采用三角形,使得在隶属函数50 kW和50 kW的边界值附近的功率点将具有较高的权重。这将有助于EMS在做出战略决策时对输入状态边界值更加敏感三角函数由于其简单性而被使用。对于另一状态SOCbat,[“VL”、“L”、“M”、“H”、“VH”]的含义是“非常低”、“低”、“中”、“高”和“非常高”。它们的隶属函数主要是三角形的,但对“VL”和“VH”的隶属函数进行了修改。如图5(b)所示,图四、 模糊交叉系统方案。(十模糊集VLLMHVH典型值(%)2040506080L. Guo等人能源与人工智能13(2023)1002465=+∼--(一)|)∼πθ∑(13)nμ∼πθ∑=()下一页∇ ()∼πθ∼πθτP(τ|θ)P(τ|θ图五、状态变量的隶属函数。隶属函数以三角形为主,“VL”和“VH”的隶属函数变化不大。在SOC小于20%或大于80%的状态下,这两个隶属函数的权重为1。这是因为我们将SOC范围设置为[20%,80%]是安全的,而对于不安全的范围,为电池安全性给出了最高的权重1。类似地,三角函数由于其简单性而被使用,并且使用非相等的隶属函数值。之所以以50%为中心,是因为设定的电池SOC参考值为50%,位于SOC物理范围[0%,100%]的中点,因此要求更高的模糊精度输入状态的隶属函数如图所示。 五、然后,两个明确的输入状态可以转换为模糊状态x与模糊逻辑运算的两组隶属函数的“与”。x中的状态数与规则数相同Pveh和SOCbat的隶属函数分别为7和5。因此,模糊状态x的维数为m35。传统上,模糊规则可以使用经验数据和/或工程经验来构建逻辑规则通常形成如下:如果Pveh是那么Pfc是推理机根据每个规则推导出模糊输出。控制动作由一个解模糊器结合所有模糊输出计算。例如,可以使用加权平均解模糊化方法来实现计算:∑n1uiμi=见图6。 强化学习原理序列[s0,a0,r1,s1,a1,r2,s2ST、AT分别表示状态、动作和奖励,RT+1表示时刻t和t1之间的瞬时重写策略梯度强化学习是强化学习的主要方法之一。在策略梯度中,策略可以是参数化为随机函数 πθa s,θ表示在给定状态s下采取行动a的概率。θ是策略函数的参数。目标是调整θ,以最大化由G(τ)表示的预期累积奖励或回报,由下式表示:J(πθ)=τE[G(τ)]( 14)其中τ0,T1表示每个事件中从初始状态到终止状态的完整时间序列,τπ θ意味着不同的时间序列τ,因为策略πθ是随机策略。理论上,需要通过智能体与环境的交互产生不同的轨迹t,然后通过计算多个轨迹的累积奖励的平均值来计算目标函数的期望值[35],这将花费大量的计算。在本文中,建议选择Monte-Carlo策略梯度(MCPG),也称为REINFORCE作为PG方法,原因有二:1)它不需要对值函数进行额外的估计,这有利于算法的配置和训练;2)Monte-Carlo是τE[G(τ)]的无偏估计方法[35]。因此,函数G(τ)可以通过以下方式与EMS目标函数J的离散形式相关联:ai=i=1 我其中μi是输出模糊动作集的第i个权值,ui是与Pfc中每个模糊集相关的典型值向量U的第i个分量,n=8是模糊动作的个数。其在本研究中的值见表4。这里,一个非等距的方法被用于模糊集的划分,并与低功率的状态被划分得更细。在传统的模糊控制系统中,由于缺乏数据和经验,模糊控制器的性能受到设计规则的限制。在这项工作中,政策梯度强化学习自动探索规则。将模糊逻辑技术和强化学习相结合,将打破经验性能限制,并能够适应燃料电池退化等模型变化引入贴现函数为:不G0=r1+γr2+γ2r3+γT-1rT=γi-1ri( 15)i=1其中γ是高度接近1的折扣因子,并且G0是在轨迹τ下从时间t0的初始状态开始的折扣累积奖励。通常,对于最大化问题,我们可以使用梯度上升算法来找到最大值。θ=θ+αθθJ(πθ)( 16)为了逐步优化参数,我们需要得到θJπθ,即最终回报函数Jπθ相对于θ的梯度,即策略梯度。<$θJ(π θ)=<$θτ E [G(τ)]=<$θ<$τ P(τ|θ)G(τ)3.3. REINFORCE:蒙特卡罗策略梯度强化学习(RL)是一种机器学习,=πP(τ|θ)G(τ)<$θ P(τ|θ)(十七)智能体通过与环境交互来采取行动,以获得最大的累积奖励[34](见图35)。 6)。结果一名表4燃料电池系统功率模糊表。=τE [G(τ)<$θln P(τ|θ)]其中P(τ|θ)是轨迹τ中每个时间步t处的概率的乘积,|θ)用于分数向量θ P(τ|θ)。根据最大值进一步推导似然方法,我们有政策梯度的基本理论[14]:模糊集SLSLVLLMHVLSH典型值(kW)0125102050100L. Guo等人能源与人工智能13(2023)1002466∑)=∑{--∈(一)|)()下一页()下一页每一集的故事对于每一步,这里是:()=θ我 不我Jθθs,τπ不 θθ不 不Jπ θ(u i| xt,θ)π θ(u i| xt,θ)J.J.⃒at=∑ρuiπθJ(πθ)=E[G(τ)∑T+1πθl nπθ(at|(18)π ux θehj(二十三)τ∼πθt=0时θ(i|t,nj=1ehj在这种情况下,G(τ)表示整个交易的折扣奖励其中π(u |x,θ)是u和h的目标策略,不Gt=γi-1ri=rt+1+γGt+1(19)i=t+1因此,为了更新每个步骤的参数,(18)可以重写如下:J(π) E[γ t G] lnπ(α|(20)偏好我们使用的随机策略是一个指数soft-max函数。这是因为soft-max在涉及矩阵的导数中具有紧凑的形式,这便于在我们的算法中计算逆梯度。(20)中的梯度项可以推导为[14]:θlnπθ(ui|xt,θ)=<$θjπ θ(u i|x t,θ)=Xtπ θ(u i|x t,θ)其中,“0”表示两侧之间的比例关系。由于策略梯度只需要保证与梯度方向相同,因此比例因子将包含在α中。以这种方式,策略参数可以根据以下步骤逐步更新:=π⎪⎩πXtθ(u i|x t,Xtθ(ui|x t,θ)π θ(u i|x t,θ)(1-π θ(u i|xt,θ)),i=jθ)。-πθ(ui|xt,θ)πθ。uj<$xt,θ)),i闪烁=j(二十四)(16):θ:=θ + α θγ t G tθ ln π θ(at|(21)其中,θ是步骤0处的最后一次发作参数的更新结果。更新方法是在每个轨迹t不1,T2,.,1,0.传统的REINFORCE是为离散和随机动作应用而设计的。在我们的例子中,算法应该用连续的a和s来构造。3.4. 模糊REINFORCE:一种函数逼近的策略梯度方法本文提出了一种新的模糊策略梯度方法FuzzyREINFORCE。在该方法中,模糊逻辑被用来构建策略函数。所提出的模糊策略函数主要由模糊化器、线性过程、软最大值函数和解模糊器组成。7.第一次会议。在模糊化器中,状态变量s被投影到x,如3.2节所述。然后,从模糊状态到动作偏好,线性过程被集成为:x t(1-π θ(u i|x t,θ)),i=j=-xtπθ。ujxt,θ),i=scinj其中θj Rm是θ的参数向量,其连接到第i个动作偏好hj,如图7所示。在模糊策略梯度RL中,每个模糊动作集的概率可以通过策略来获得(23)中的πθat xt,θ一种常见的方法是使用最大的概率作为输出。然而,这种方法要求动作空间是离散的。在我们的应用中,动作空间是连续的。为了解决这个问题,对应于动作集的概率也可以被视为动作的权重。将模糊动作集的每个典型值uiρ= [ρ1,ρ2,ρi=πθ ( ui|xt , θ ) , i=1 , 2 , . ,n( 25)对于具有离散动作空间的随机应用,所提出的模糊强化已经用ρ完成。对于连续动作的确定性情况,所提出的方法是应用模糊动作集的概率的defuzzifier。这里,我们使用每个动作因此,可以采用(13)中所示的加权平均方法,并且可以将动作at导出为:h( x,θ)=θ<$ x(22)其中h= [h1,h2,. h n ]T 是行动偏好。 θ∈的维数ni=1我Pfc=at+Nt(二十六)Rm×n取决于模糊状态x和动作偏好h,如图7所示。在每个状态中具有较高偏好的动作也具有其中Nt是随机探测噪声。勘探率由被选中的可能性更高。为了选择动作,每个典型动作向量U={u1,u2,10%到0.01%的一个t在我们的应用程序在这个过程中。基于根据以上分析,表5中总结了算法模糊增强的伪代码。3.5. 以模糊值函数为基线的模糊增强传统REINFORCE的一个典型问题是它在梯度更新期间存在高方差[29]。为了减少方差并稳定学习,将基线b st引入函数(20)[14]中,如下所示:<$θtJ(π θ)<$s,E[(G t-b(s t))γ <$θtlnπ θ(a t|(27)不τ∼πθ图7.第一次会议。提出的模糊增强方案。基线b st可以被设计为恒定值,或者与状态st相关的函数。目标函数J的梯度方向不受影响,因为θb st0。 因此,参数θ可以重写为:θ:=θ+ α θ[Gt-b(s t)]γ t <$θ lnπ θ(a t|(28)提出了一个价值函数V(st)来估计累积回报,并将其用作基线函数b(st)。θL. Guo等人能源与人工智能13(2023)1002467t←rt+1+tγGt+ 1M()下一页∈=-Mx(s)it=--×][【×】【×】(t)=∑i=1xs平台处理器i=1s表5Fuzzy REINFORCE的伪代码。模糊蒙特卡罗策略梯度初始化策略参数θ∈Rm×n,每个片段使用随机种子Repeat:清空序列存储器M使用s0重置环境用图5从状态st得到模糊状态xt,对每个步骤t=0, 1,.,T - 2,T - 1重复通过θxt得到偏好h用softmax(h)得到模糊动作权重ρ用ρ和随机Nt的解模糊器获得并采取行动at观察奖励rt+1 下一个状态是t+1用图5从状态s t + 1得到模糊状态xt+1将[xt+1,at,rt+1]加到顺序存储器M中。更新模糊状态xt← xt+1直到st+1是终结点G对t=T-1,T- 2,.,1,0重复:θ ← θ +αθγ Gt <$lnπ(at |xt,θ)直到G0收敛。因此,参数θ的更新方法可以写为:θ:=θ+α θγ tθ ln π θ(a t| s t)[G t-V(s t)](29)在本工作中,FIS也被用来作为基线的价值函数的函数逼近器。具体地,模糊值函数可以使用加权平均法来构造:4. 模拟和结果分析基于Python的训练和测试平台已经建立了拟议的模糊增强基于EMS。此外,还利用dSPACE MicroLabBoX和微控制器ESP32构建了硬件在环(HIL)实验平台。各计算单元的性能如表7所示。请注意,FCHEV的模型是基于丰田在本节中,对所提出的EMS的结果进行了分析和讨论。4.1. 测试驾驶循环建议的EMS使用2个标准的驾驶循环城市测功机驾驶计划(UDDS)和新欧洲驾驶循环(NEDC)进行测试。具体的速度和功率的FCHEV在这两个驱动循环下显示在图。8.第八条。4.2. 试验结果分析(15)中的衰变率被设定为γ= 0。999.系统状态和控制动作被约束为Pveh(t)∈ [-50kW, 50kW],SOCbat(t)∈ [0%, 100%],Pfc(t)∈[0, 50kW]。所提出的模糊增强的学习曲线如图所示。9.第九条。如图9所示,G0是评价再学习训练过程的主要标准,它代表了从初始状态到终止状态的折扣累积奖励。证券交易委员会-Vs∑M x i(st)v i(三十)第二个数字是每集的平均奖励。这些测试是用不同的学习率α进行,结果表明,αθ=i=1 i(t)其中vi v是对应于第i个模糊状态xi st的第i个模糊状态值。vi可以根据每个模糊状态的触发强度的权重进行更新:0的情况。0002的收敛速度更快,可以实现相同的训练结果 此外,训练过程中提出的模糊REIN-具有模糊基线函数的FORCE如图10所示。学习率参数选择为:0的情况。0002,α v0的情况。002.基线, 稳定区的G0值和平均报酬均高于vi=vi+αv(Gt-V(st))∑xi(st)i=1(三十一)没有基线设置的。利用模糊基线函数,可以找到一条较好的策略优化路径,并在很大程度上避免陷入局部最优。其中vi也将从时间t T作为蒙特卡罗方法更新1到t0在每一个情节。具有模糊基线值函数的模糊REINFORCE的伪代码如表6所示。表6带有基线的模糊增强的伪代码具有模糊基线函数的使用随机种子初始化策略参数θ∈Rm×n,v∈Rm。清空序列存储器M使用s0重置环境用图5从状态st得到模糊状态xt,对每个步骤t=0, 1,.,T - 2,T - 1重复通过θxt得到偏好h用softmax(h)得到模糊动作权重ρ用ρ和随机Nt的解模糊器获得并采取行动at观察奖励rt+1 下一个状态是t+1用图5从状态s t + 1得到模糊状态xt+1将[xt+1,at,rt+1]加到顺序存储器M中。更新模糊状态xt← xt+1直到st+1是终结点对t=T-1,.,1,0重复在这里,我们比较了4种不同RL算法的训练时间和收敛时间,如表8所示。对于文献[13]和[26]中的Q-学习和模糊Q-学习,它们的训练环境与本文的FCHEV模型和驾驶条件相同。由于算法原理的不同,它们对计算的要求也不同。对于这些RL方法的计算,Q-Learning需要将学习到的经验存储到Q表中,在我们的应用程序中,Q表的大小为,102, 01, 1, 01。这意味着所有状态和动作都被离散化到可行范围的1%在Q-Learning中,在一个学习步骤中更新该表对于模糊Q学习,35.存储8个模糊Q表,一次更新8个模糊Q表项 学习 步 为 2 提出了模糊增强方法,35 8 存储参数矩阵Xθ 每一个学习步骤。与传统的强化学习和模糊Q-learnig相比,提出的2种模糊REINFORCE方法显著减少了训练的收敛时间。快速的训练和较少的计算资源保证了它作为实时在线学习算法的可能性。此外,模糊增强基线,实现更好的性能,同时保持令人满意的学习速度和轻的数据存储空间。在训练过程之后,使用3种不同的初始SOC进行不同的测试,表7G←rγG,Vs∑Mxi(st)viM车辆所需功率模糊表。不t+1+θ←θi=1t+1(t)=∑X s+θ∇(t|t,)(t-V(t))x(st)主机PC Intel Core i5 9400H@2.5GHzi( t)αγtln πa xθ GL. Guo等人能源与人工智能13(2023)1002468v←v+αv(Gt-V(st))∑x(st)dSPACE MicroLabBoX双核实时处理器@2GHz直到G0收敛。ESP32 Xtensa双核32位LX6微处理器,240 MHzL. Guo等人能源与人工智能13(2023)1002469=见图8。 FCHEV在不同行驶循环下的速度和功率:(a)“UDDS”; (b)图9.第九条。所提出的基于模糊REINFORCE的EMS的训练过程:(a)G0;(b)平均奖励图10个。所提出的模糊增强的训练过程与基线:(a)G0;(b)平均奖励。表84种RL算法的训练时间和收敛性旨在验证所提方法的适应性方法来初始化状态更改。在不同初始状态SOC bat 25%、50%、75%的“UDDS”行驶循环下对车辆进行试验图11显示了测试过程中的累积损失,损失越大,代理的奖励越低当没有基线时,损失显著增加特别是当初始值为75%时,损失远高于基线。这种情况下,在rein-personallearning一般意味着该地区的探索较少。在图12中,其示出了所提出的基于模糊REINFOR-CEE的EMS的SOC轨迹。为了保证电池的连续循环运行,根据车辆的实际情况,SOC总是要求在一定范围内。在本文中,SOC轨迹被设置为接近50%。结果表明,具有基线的SOC轨迹可以更快地向参考SOC值移动。此外,Fig.图13和图14示出了在具有3个不同初始SOC的“UDDS”的驱动条件下所提出的2种方法的功率分配。图15和图16示出了在10个“NEDC”驾驶循环下所提出的EMS的功率分配,这对于使用“UDDS”训练的EMS代理是未知的。相比之下,具有基线功能的车辆的行为更保守,这在实际车辆操作中更有利。测试结果表明,即使在不同的初始状态和未知的外部输入条件下,该方法仍具有较好的适应性,能够实现不同能源之间的功率分配策略,从而提高整体工作效率。FCHEV的“UDDS”和“NEDC”的10个驱动循环的电池SOC轨迹如图1A和1B所示。17号和18号。测试结果表明,在不同的驾驶条件下,SOC轨迹很好地保持在50%左右。对于建议的模糊增强没有基线功能,电池的最终SOC为49.68%和53.72%下的驾驶循环“UDDS”和“NEDC”。在10个驾驶循环之后,在相同的初始状态SOC设定为50%的情况下,“UDDS”的总氢消耗量为416.5g,并且“NEDC”的氢消耗量为397.4g,其处于使用DP提供的最优参考(“UDDS :“362.4g,“NEDC”:344.7g)附近的水平。在“UDDS”和“NEDC”工况下,所提出的具有基线功能的模糊增强法的最终电池SOC分别为50.90%和67.12%。经过10个行驶循环后,在相同初始状态SOC设定为50%的情况下,“UDDS”的总耗氢量详细结果总结见表9和表10。提出了两种催化剂RL代理培训时间聚合事件计算大小方法在两个测试驾驶循环中所示的图。 十九岁Q-Learning[13]4小时95,000[,102,01,× 1,4.3. 实验结果[26]第26话01]8模糊REINFORCE 4min 20[35 ×8]专用于硬件在环(HIL)测试模糊RIENFORCE与10分钟120[35 ×]如图20所示形成。在HIL实验测试期间,基线[35 ×8]被控对象是虚拟的,其模型在dSPAECE MicroLabBoX中实时执行。在控制器方面,采用ESP32单片机来部署EMS程序。FCHEV模拟器通过RTI提供见图11。在“UDDS”潜水条件下,拟议的基于模糊增强的EMS的损失见图12。本文研究了在无基线和有基线条件下,基于模糊增强的EMS系统的SOC轨迹L. Guo等人能源与人工智能13(2023)10024610图十三. 基于模糊增强的EMS在“UDDS”工况下的功率分配见图14。建议的模糊FEINFORCE与基于基线的EMS下的驾驶循环图16. 在10个“NEDC”驾驶循环下,建议的模糊增强与基于基线的EMS的功率分配( 模 拟测 试 ) 。图17. 提出的基于模糊增强的EMS在10个驾驶循环下的SOC轨迹:(a)UDDS;(b)NEDC。图18. 在10个驾驶循环下,具有基于基线的EMS的所提出的模糊增强的SOC轨迹:(a)UDDS;(b)NEDC。表910个驾驶循环时间后的测试结果(无基线)。行驶循环初始SOC平均报酬H2消耗量(g)燃油消耗率(g/100km)最终SOC图15. 基于模糊增强的EMS在10个“NEDC”行驶循环UDDS 25%-0.1585 436.4 364.0 49.68%50%¥0.0336 416.5 347.449.68%75%-0.1912 396.2 327.1 49.68%25%-0.2169 417.4 381.9 53.71%50%¥0.0422 397.4 363.653.71%75%-0.1353 377.9 345.8 53.71%和HIL库。 状态Pve h、SO Cbat和mstechh2的信息 转移到ESP32。 然后ESP32根据系统状态反馈燃料电池系统输出功率的功率指令。该命令通过其数模转换(DAC)模块发送的NEDCL. Guo等人能源与人工智能13(2023)10024610表1010个驾驶循环时间后的测试结果(有基线)。行驶循环初始SOC平均报酬H2消耗量(g)燃油消耗率(g/100km)最终SOCUDDS 25%-0.0252 330.4 275.56 50.90%50%¥0.0232 307.5 256.4650.90%NEDC75%-0.024 286.5 238.95 50.90%25%-0.0557 339.7 310.80 67.12%50%¥0.0532 316.5 289.5
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功