强化学习下CO2配额市场溶剂型碳捕集电厂最优竞价与运行

155 浏览量更新于2024-01-09 收藏 1.03MB PDF 举报

工程研究

强化学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程3（2017）257研究智能流程制造-Article基于强化学习的Sarsa时间差分算法求解CO2配额市场下的溶剂型碳捕集电厂的最优竞价与运行李子昂a，丁正涛a，*，王美红b英国曼彻斯特大学电气与电子工程学院，曼彻斯特M13 9PL英国谢菲尔德大学化学与生物工程系，谢菲尔德S1 3JDARt i clEINf oA b s tRAC t文章历史记录：2017年1月17日收到2017年3月2日修订2017年3月10日接受2017年3月24日在线发布保留字：发电厂燃烧后碳捕获化学吸收CO2配额市场最优决策强化学习采用基于强化学习（RL）的Sarsa时间差（TD）算法，在不同 CO2配额市场条件下，为采用单乙醇胺（MEA）燃烧后碳捕集技术发电厂的决策者的目标是在发电厂的生命周期内最大化的贴现累积利润两个约束条件被认为是客观的制定。首先，在假定燃料消耗固定的情况下，应在能源密集型碳捕集和发电之间进行权衡其次，从CO2配额市场购买的CO2配额应与发电CO2排放量大致相等三个案例研究表明，此后。在第一种情况下，我们显示的Sarsa TD算法的收敛性，并找到一个确定性的最优报价和运营策略。在第二种情况下，与以往独立设计的运行和报价策略相比，基于Sarsa TD的统一报价和运行策略具有时变的灵活的市场导向CO2捕集水平，可以帮助电厂决策者获得更高的折扣累积利润。在第三种情况下，在同一个CO2配额市场下，考虑经营与前一个电厂相同的另一个电厂的竞争者竞争对手也有碳捕获设施，但采用不同的策略来赚取利润。然后比较了两个电厂的折扣累积利润，从而显示了采用Sarsa TD算法探索的统一报价和运营策略的电厂的竞争力© 2017 The Bottoms.由爱思唯尔有限公司代表中国工程院和高等教育出版社有限公司出版这是CC BY-NC-ND下的开放获取文章许可证（http：//creati v ecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍二氧化碳（CO2）是发电厂排放的主要温室气体.基于胺的燃烧后碳捕集是一种有前途的大规模碳捕集技术，因为它允许通过相对简单的常规化石燃料发电厂改造来实现碳捕集[1]。单乙醇胺（MEA）是一种伯胺，与仲胺和叔胺相比，它与CO2的反应速度胺类化合物[2]。以前的研究集中在溶剂基碳捕集过程在特定捕集水平下的最佳操作[1，3 - 7]。尽管如此，用于碳捕获的MEA的再生是能量密集型和昂贵的。在CO2配额市场下，固定捕获水平的碳捕获过程的操作是不经济的，其中结算价格可能会因每个季度的拍卖而变化。在参考文献中。[8，9]中已经指出，在不同的CO2价格条件下，CO2捕获水平可能会发生变化。然而，这些二氧化碳定价机制类似于碳税[10]. 灵活的市场化二氧化碳排放权交易机制* 通讯作者。电子邮件地址：zhengtao. manchester.ac.ukhttp://dx.doi.org/10.1016/J.ENG.2017.02.0142095-8099/© 2017 THE COMEORS.由爱思唯尔有限公司代表中国工程院和高等教育出版社有限公司出版。这是CC BY-NC-ND许可证下的开放获取文章（http：//creati v ecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect工程杂志主页：www.elsevier.com/locate/eng258Z. Li等人/工程3（2017）257[11-13]，决策者应根据市场上的CO2配额报价来决定。为了使碳捕集发电厂在整个生命周期内实现利润最大化，必须为碳捕集发电厂设计统一的投标和运营策略。在本文中，我们实现的Sarsa时间差（TD）算法，探索一个特定的发电厂与溶剂基碳捕集的决策者的投标和运营策略在时变允许市场下，投标和运营之间的关系是通过决策者的持有账户建立的[14]。该战略的绩效是根据贴现的累计利润来评估的-即电厂的贴现现金流[9]。本文件的结构如下。在第二节中，基于一个考虑季度CO2配额拍卖的燃煤电厂碳捕集一体化盈利模型，在第3节中，Sarsa TD算法的介绍和应用，以找到一个最佳的解决方案，为上述集成系统。在第四节中，结果表明，Sarsa TD算法可以找到一个统一的报价和运营策略的解决方案，使特定的发电厂的利润最后得出结论2. 问题公式化在本节中，开发了结合碳捕获过程的燃煤电厂的盈利模式，并介绍了简化的温室气体排放交易系统然后，以排污权交易制度下发电厂寿命期内的累计利润折现值为目标函数，建立了目标函数2.1. 基于MEA的碳捕获模型基于MEA的碳捕获过程的过程模型是在Aspen Plus ®中开发[15]。采用电解质非随机双液（eNRTL）方法计算了其物理性质使用中试工厂[16]的实验数据对其进行了验证，并按比例放大，以处理相当于650 MW燃煤亚临界电厂排放的烟气。图1 [6，17]显示了基于MEA的燃烧后碳捕获工艺流程图。如图所示，为烟气CO2吸收[18]构建了两个吸收塔;表1显示了吸收塔和汽提塔的参数。通过分流器1将贫MEA溶剂流分成两个相等的部分，并进料到两个吸收器的顶部。同时，来自发电厂的烟道气被分流器2分流并注入吸收器的底部。在吸收塔中，烟气中的CO2与MEA溶剂自动反应.具有较少CO2的蒸气相被释放到大气中，而富含CO2的MEA溶剂相被泵送到交叉换热器，然后被输送到汽提器。在汽提塔中，CO2从富MEA溶剂中分解，而贫MEA溶剂再生并离开汽提塔底部。该贫MEA溶剂通过交叉热交换器和下游冷却器冷却，因为其应达到两个吸收器的入口贫MEA溶剂的指定温度目标。此外，在再循环之前，使用混合器3弥补最后，贫MEA溶剂被送回用于连续的CO2吸收。通过汽提塔的冷凝器，高浓度的CO2产品准备用于压缩和输送。图 1、基于MEA的燃烧后碳捕集工艺由四个控制回路控制。文献[3，17]中讨论了类似的控制方案。相应地，对于Aspen Plus®中的稳态模型，我们将设计规范设置如下：①通过改变冷凝器负荷将汽提塔的顶部温度设定为35 °C; ②通过改变冷却器负荷将吸收塔顶部贫MEA溶剂的温度设定为40 °C;③稀载（即，贫MEA溶剂中CO2和MEA之间摩尔比）设定为约0.2摩尔CO2图1.一、基于MEA的燃烧后碳捕获工艺流程图[6，17]。AT：成分变送器; FT：流量变送器; TT：温度变送器; CC：CO2捕获液位控制器; LLC：稀载控制器; TC：温度控制器。Z. Li等人/工程3（2017）257259tn每mol MEA（molCO·mol[18，19]通过改变再沸器的热量在Eq. (1)摘要如下：2个多边环境协定占空比;并通过控制贫MEA流速，将CO2捕获水平设置在离散值集{50%，60%，70%，80%，90%}注意，实际上，由于贫负荷难以测量，因此通过改变指示贫负荷的热负荷来指定再沸器温度FOM0.25βPnVOMtδEt/1000FtHt（三）（四）（五）吸收塔和汽提塔的规格如表1所示，以及如表2所示的烟道气和贫MEA溶剂的基本输入设置，我们进一步操纵贫MEA溶剂的摩尔流速和贫负载，以达到具有最小再沸器负荷的特定CO2捕获水平。表3总结了每个操作规范的性能，从中我们可以确定第t季度不同CO2捕集水平ct的最佳再沸器负荷Qreb（ct）2.2. 燃煤亚临界电厂的盈利模式燃煤电厂是重要的组成部分，因为它们包括-其中β和δ分别是固定和可变的OM成本系数，f是燃料成本;并且Pn是发电厂标称容量。这些变量在表4 [21]中以特定单位定义。此外，Et是电力输出（kW·h·qtr燃煤电厂的发电收入可写为：RtλEt（6）其中λ为电价，单位为USD·（kW·h）第t季度的利润可以按如下公式计算PtRCt这是世界上主要的能源消耗，也是所有发电系统中释放二氧化碳最多的[20]。因此在λ（七）在本节中，我们计算了一个结合碳捕集的亚临界燃煤电厂的季度利润。建立了运行规范与发电量之间的关系。根据美国能源信息管理局（EIA）[21]，第t季度发电厂的成本Ct（单位：USD·qtrCtFOMVOMtFBt（1）其中FOM是季度固定运行和维护（OM）其中，我们记为Pt=P（Et，Ht，wt，vt），因为利润取决于变量Et，Ht，wt和vt。在本文中，发电和碳捕集的总燃料消耗，Ht，被假定为常数。因此，应在主发电厂的发电量和集成碳捕集设施的能源密集型碳捕集之间进行权衡。对于额定容量Pn= 650 000 kW的燃煤电厂，如表4所示，一个季度的燃料消耗量可计算如下：成本;VOMt是季度可变OM成本;Ft是季度燃料成本;Bt是季度CO2投标成本。根据Cal-电话：+86-21 -6666666传真：-21-（八）加州二氧化碳配额拍卖机制[11]，投标成本定义如下：其中值2190表示一个季度中的小时数。碳捕获的季度能源消耗，Ut，GJ·qtrBtvtwt（二）HUE/η 3600 /106（九）其中vt是季度配额拍卖中每个配额的CO2配额结算价（单位：美元），wt是决策者在第t个季度赢得的CO2配额一个二氧化碳限额允许发电厂释放一公吨的二氧化碳其他表1吸收塔和汽提塔的参数。t t tUt可以与相应的再沸器负荷Qreb（ct）相关，如第2.1节所述：UQreb（ct）3600/2190（10）（9）和（10），电力输出Et为表3基于MEA的燃烧后碳捕获工艺在不同操作规范下的性能捕获水平贫MEA流速(kg·s贫载（molCO ·mol-1 ）的方式Qreb (MWth）2个多边环境协定百分之五十948.80.20293.3百分之六十1148.20.20354.5百分之七十1350.30.20416.9百分之八十1557.30.20480.9百分之九十1837.50.21547.3表2燃烧后碳捕获的物质流参数烟气贫MEA溶剂表4具有碳捕获的发电厂的参数[21]。摩尔流速（kmol·s25-参数符号值单元温度（°C）4040标称容量Pn650 000kW压力（Pa）105 117170 273容量因子ζ0.55无单位质量分数MEA00.3098效率η38.78%H2 O0.09640.6434固定OM系数β80.53USD·（kW·a）CO20.20680.0468可变OM系数δ9.51USD·（MW·h）N20.67030电价λ0.102USD·（kW·h）参数吸收器脱衣舞娘填料型MellapakMellapak尺寸250Y250Y列数21直径（m）16.916.9包装高度（m）23.523.5顶部压力（Pa）101 325170 273260Z. Li等人/工程3（2017）257O20.02650燃料价格F1.545USD·GJZ. Li等人/工程3（2017）257261tt0，t0，tt第t个四分之一可以推导如下：东经106/3600<$[东经7884Q（c）（a）（b）（a）（c）（a）（b）（c）） E（c）（十一）如果任何实体提交的投标数量q可能潜在地导致其持有账户CO2限额超过持有限额，t trebt t这表明捕获电平Ct可以唯一地确定电力输出。发电厂的季度利润（方程式）(7))可以简化如下：所提交的出价将是不合格的出价，并将被拍卖运营商拒绝。在本文中，持有账户仅具有几个账户的类似功能，如加利福尼亚州法规[11]中所述。我们假设以下约束PP（H，E（c），w，v）P（c，w，v）（十二）持有帐户二氧化碳津贴：tttttt不不综上所述，对于具有CO2捕获的特定燃煤电厂，假设使用固定量的燃料，并且燃料和电力价格持续固定，其第t季度的利润Pt可以ht1htq0，hlht1h（wtet）0（十六）（十七）由CO2捕获水平ct、从CO2拍卖中购买的决策者的获胜CO2配额wt以及每个CO2配额的结算价格vt唯一确定2.3. 二氧化碳排放量市场在第2.2节中，虽然利润，Pt（方程。(7))由于四分之一是完全定义的，所以只讨论了两个自由度Et和Ht另外两个自由度，wt和vt，应受CO2配额市场条件的影响。当所有覆盖的或选择加入的实体（例如，发电公司）提交给拍卖运营商。与决策者有关的实体的投标数量和投标价格分别记为q0，t和p0，t，所有其他实体的投标数量和投标价格分别记为qi，t和pi，t，其中i∈I，I={1，2，3，.，I }是津贴市场中除决策者实体之外的然后，运营商将实现密封投标拍卖机制[14]，如下所示。在一个季度内，拍卖运营商将拒绝违反相应单位或投标人的购买限额，持有限额或投标保证的不合格投标。随后，合格的其中ht+1是在第（t+1）季度拍卖开始时的持有账户CO2请注意，如果赢得的CO2配额wt小于CO2排放量et，则应从持有账户中交出额外的CO2配额;如果赢得的CO2配额大于CO2排放量，则多余的赢得的CO2配额将保留在持有账户中。在第t个季度之前，持有账户中所有季度累积的CO2排放总量记为ht。等式中的不等式(17)表示持有账户CO2配额ht不应用尽;否则，将因超额排放而支付额外罚款，而无需交出配额。根据加州法规[11]，四倍的超额排放被设定为不及时交出的合规义务。将引入额外的投标和为了简洁起见，我们假设对不及时提交的罚款是每公吨二氧化碳过量排放320美元，而不是加州法规中规定的罚款。因此，等式中的不等式（17）是一个软约束。另一方面，Eq.(16)这意味着对于任何T，决策者应该只提交投标数量Q0，T，这可能不会潜在地导致Ht+1大于H1，如前所述。变量et代表电厂第t季度的CO2所有投标人的投标将被认为是由降序条款投标价格。从最高价开始，投标人分-et148.6（ct）3600 2190/1000e（ct）（十八）在每个价格下发出的投标将被出售相当于其投标数量的CO2配额，直到以下条件之一适用：配额市场上所有拍卖的配额A都卖光;或者，下一个投标人的投标价格低于拍卖底价gt，单位为美元/配额[11]。如果拍卖的CO2配额已售出，则结算价为最后一次带配额出售的投标的投标价;如果结算价等于保留价，则售出的CO2配额为价格高于保留价的所有投标的累计投标数量。拍卖运营商然后可以计算每个出价人或实体的获胜出价的获胜CO2在本文中，决策者的获胜CO2配额为wt），出售的CO2配额为ut，所有实体的统一结算价格为vt，其中由于ct是与基于溶剂的碳捕获过程的操作相关的CO2捕获水平，而wt和q0，t与在CO2配额市场下的投标相关，因此等式2中的不等式是不成立的。(16)（17）招标与运营的潜在关系。2.4. 目标制定在第2.2节中，利润（方程式）（12））由CO2捕获水平ct、决策者的获胜CO2配额wt和结算价格vt表示。捕获水平ct可以由决策者任意确定，而获胜的CO2配额wt和结算价格vt必须由等式中所示的所有实体的投标选项来确定（13）和（14）。如果所有其他wtw（q0，t，p0，t，q1，t，p1，t，...，qI，t，pI，t）（十三）实体已经提交了它们的投标选项（即，pi，t和qi，t，其中，i∈I），只进行碳捕集的发电厂的决策者vt v（q0，t，p0，t，q1，t，p1，t，.， pI，t，qI，t）（十四）需要确定操作方法，即ct和投标utu（q0，t，p0，t，q1，t，p1，t，...，qI，t，pI，t）（十五）方法，（q0，t，p0，t），对于相应的利润（等式2），(12))估计。统一动作表示为在方程式中，(13)、（14）或（15），决策者只能确定自己的投标量q0，t和投标价格p0，t。决策者应a（c，q ，p ）T（s）=（十九）使用其他实体的历史投标数据来估计其他公司的投标选项，如第2.4节所示的概率所示。在本文中，为了判断一个投标是否合格，我们只考虑发电厂决策者在津贴中的持有限制hl。为简单起见，购买限额和投标保证被省略持有限额是指在备抵市场中涵盖的实体的持有账户的上限其中A（st）是状态st下的离散动作集，并且假设对于状态st是A。请注意，发电厂的决策者只知道自己的投标数量q0 ，t和价格p0 ，t;对于i∈I，其他投标人的q i，t和pi，t必须由决策者使用先验知识来估计。在本文中，投标数量和价格的其他实体被假定为影响的结算价格，Vt-1，和出售的津贴，ut-1，最后一个季度的讨论了电力市场中类似的状态选择方法262Z. Li等人/工程3（2017）257不（s，a）k1tt tk关于我们[22]. 因此，第t个四分之一中的状态st表示如下：可以找到第2节中定义的问题的最优策略或策略。这种算法可以在Matlab®中编程。我们-st（vt1，ut1，h，t）T（二十）应用这种方法的发电厂利润最大化，因为它其中ht被认为是方程中的状态变量。(20)，因为持有帐户二氧化碳津贴应该是足够的（公式10）。(17))但不可能超过保持极限h1（等式10）。（16））。此外，我们倾向于最大化的贴现累积利润的电厂在其生命周期内的问题，因此，时间t被设置为一个状态条目，使决策者可以采取不同的行动，在不同的时期的电厂生命周期。假设每个实体的投标数量集和投标价格集分别为Qi和Pi，则决策者可以估计任何投标人选择可能的投标选项的概率κ，即具有自适应和无模型特性。其结果是，一个初始的最优策略，可以自动找到一个模型化的环境中，在第2节，进一步的政策调整，可以作出时，代理的决策电厂与现实环境的相互作用。Sarsa TD算法比动态规划需要更少的计算时间，并且比另一种称为Q -学习的基本RL算法具有更好的收敛特性[23]。然而，应该注意的是，如果调整参数（例如ε）被不适当地安排，则Sarsa TD算法经常发现更差的策略。参数ε是探索动作集A的概率，稍后将介绍。κ（s，p，q）<$Pr（q阿夫拉q，p布吕普|ss，q，p）（二十一）为了设计Sarsa TD算法，我们应该定义一个最佳动作-我i i，tii，t it ii我我对任何i∈I。请注意，尽管实体在每个季度可能会选择不同的投标选项，但投标选项会设置数量和价格基于Eq.（24）这是N1Q*（s，a） max （s，a）kr| ss,aa}（二十八）(i.e.、Qi和Pi）是时不变的，并且被假设为不变 k0k 1t t为你准备的然后，我们构造了以下马尔可夫决策过程。在一个特定的状态下，st=s，决策者采取一个位置，对于所有s ∈ S和a ∈ A，其中Q π表示为策略π的行动价值函数. 因此，最优策略为可能的行动at = a.联合概率定义为Q*（s，a）一（二十九）a党卫军我我ii（二十二）然而，如果尚未获得最优策略，则最优动作值Q根据Refs。[23，24]，所有其他投标人将选择他们自己的投标选项作为规范-一个行动价值函数迭代方法（方程2）。(30))可以确保在Eq. (22)，这样下一个季度的州=（v，u，h，t+1）=s′动作值函数Q（s，a）收敛于Qπ（s，a），电话+1不不电话+1t+k+1可以在采取行动at = a时唯一确定。此外，根据从st到st+1的状态转换导出奖励rt+1，访问所有状态s∈S和所有动作a∈A且k → ∞的次数。迭代方法是基于等式（12）就是说，Q（s，a）（s，a）仲裁人[仲裁人]（s'，a'）Q（s，a）]（三十）rt1PP（ct，wt，vt）（二十三）其中a应该是从当前策略π导出的动作;α是请注意，“奖励”是在强化学习（RL）框架下定义的术语。实际上，第（t+1）个季度的奖励，rt+1，是发电厂的利润Pt（等式2）。(12))对于第t个学习率。假设Qπ（s，a）的一个估计是基于等式（1）的，则Q π（s，a）的估计是基于等式（2）的。(30)是Qπ（s，a），则通过以下等式实现策略改进：季度由于t是任意时间指标，决策者可以递归地得到有限时间范围内的报酬序列为st，at，st+1，rt+1，at+1，st+2，rt+2，.，a t + N-1，st + N，rt + N，即投标和运营的一个变量N表示发电厂的寿命，a= ，=m，ax，Q， π（s，a），或一1个字母/n，如果a/n（三十一）（三十二）基于MEA的碳捕获过程。对于k∈ {0，1，...，N-1}，目标函数可以构造为N1max V π（s）maxγ kr|s其中，ra表示使用与π（s，a）一致的n个预先确定的策略yπ'（s，a一致地。除了贪婪的行为，所有的行为都被称为前。受πk不π πk（二十四）探索行动。探索性动作可以确保找到导致全局最大状态值的最优策略，Vπ（等式2）。rP（c，w（五）（二十五）（24）），在每个州，而不是一些局部最大值。通过设置k1塔贝克塔贝克塔贝克新策略为π←π′，方程(30)（31）、（32）构成了动作值，htkq0，khl（二十六）UE迭代算法，应该永远重复该算法胡泽 （w埃莱）100可以得到最优策略π*。在使用该算法之前，k1tttk（二十七）α和ε应进行计划。学习率α应该很大，其中Vπ（s）是策略π下状态s的状态值函数;r确保Q（s，a）的快速初始化（等式2）。（30））对于所有s∈S和所有a∈t t t+k+1是从状态st+k过渡到st+k+1时的报酬，γ是折扣系数，Eπ{·}是策略π下折扣报酬序列的期望.对于决策者来说，随机策略的概率写为π（st+k，at+k），其中每个行动的概率at+k应该在每个状态st+k下确定，以最大化终身贴现累积利润。我们考虑一个随机的或软的政策，因为最优的政策应该探索的RL为基础的Sarsa TD算法。最后，软策略应逐步转变为可应用的确定性最优策略。等式（26）和（27）可以从等式（27）获得（16）和（17）。3. Sarsa TD算法：介绍和实现基于RL的Sarsa TD算法是一种适用的算法，Z. Li等人/工程3（2017）257263但最终小到使那些动作值收敛。尽管预定α序列存在理论条件，但它们很少在应用中使用[23]。探索动作集的概率ε对于完全探索性开始等于1，但是对于确定性策略的最终推导逐渐减小到0表5给出了采用ε-贪婪策略的Sarsa TD算法。请注意，Sarsa TD算法是一种无模型在线算法，可通过与环境（即真实的CO2配额市场）的交互直接实现。尽管如此，在本文中，投标选项的估计和相应的概率为其他实体，以形成一个模型化的CO2配额市场。这种先验知识可以从其他发电厂的历史投标数据中获得。如果历史投标数据不可用，则历史市场条件可以264Z. Li等人/工程3（2017）257用于使用统计分析识别状态转移概率[22]。在此基础上，可以使用表5中提供的基于RL的Sarsa TD算法获得初始策略。这样做的好处是减少了与真实二氧化碳拍卖市场的互动参考文献[23]中讨论了一个统一的规划和学习视图，它将模拟模型和真实环境结合起来。4. 结果和讨论在案例研究中，有8个覆盖的实体，分别标记为0、1、2、3、4、5、6和7。实体0是使用表4中所示的参数运营燃煤电厂的决策者;这被假设为我们自己的公司，其倾向于最大化电厂的贴现累积利润决策者将执行Sarsa TD算法，在每个状态下寻求适当的投标和操作动作。实体1运营的发电厂具有与实体0相同的设置，但采用不同的投标和运营策略，这将在第4.3.所有其他实体的投标策略（即，实体2-7）是预定义的，并且应该由决策者的建模环境预测。对于等式中所示的目标函数，(24)，初始时间步长设置为t= 0，相关时间范围为N= 100个季度（即，发电厂的寿命是25年），这表明k∈{0，1，2，...，99}。因此，任何时变变量现在都由“k“索引发电厂的年折现率设定为8%[9]，发电厂的年寿命为25年，因此季度折现率为γ= 1/（1 + 8%）0.25<$0.98。持有限额hl是根据年度津贴预算制定的[11]。然而，年度津贴预算是有计划的，每年可能不同为简便起见，hl为常数，本文中留有6 × 106裕量.在表5中，γ为8次发作，α从1/20变为1/200，ε从1变为1/200。0.1. 变量α和ε随着策略改进的执行而改变方程中的状态变量(20)应该聚合成离散的级别，以缓解状态空间的维数灾难;这称为状态聚合[22，23]。状态聚合的实现方式如下：结算价格和出售津贴一起考虑，因为当一个在特定域中时，另一个应该被限制在某个特定值中。例如，如果卖方允许-在CO拍卖中的拍卖额u小于总的拍卖CO如果允许量A = 1500000，则结算价格v k- 1必须等于保留价格g，这在表6中由i s = 1，2，3的水平表示。同样，时间k和持有账户CO2限额h k分别汇总，并分别汇总在表6和表7中。基于表6和表7，将原始状态空间S离散为8 × 5 × 14 = 560个聚合状态。动作变量（Eq. (19))分为两部分。一部分是运行部分，即供决策者选择的5个可能的燃煤电厂CO2捕集水平，即表3中的C ={50%，60%，70%，80%，90%};另一部分是16个可能的投标方案，包括投标数量和投标价格，即（q0，p0）∈B0.类似于其他实体的投标数量集合和投标价格集合（即，Qi和Pi），我们只考虑与状态无关的时不变投标选项集B0。因此，决策者的每个聚合状态总共有5 × 16 = 80个不同的动作我们将在下面的章节中提到决策者实施的具体行动为简洁起见，没有列出C和B0引起的确切80个动作4.1. Sarsa TD算法的收敛性在这一节中，我们给出了在某些状态下作用值的收敛特性。请注意，由于状态变量已经聚合，因此我们只考虑表6和表7中标记的每个状态条目的分类级别，而不是sk的确切值。图2示出了一个特定状态-动作对（s，a）的动作值Q（s，a）的收敛，其中聚合状态，s被分类为三元组（is，js，vs）=（5，7，4），并且动作a被ia= 61所索引对于由ia= 61索引的动作，对应的动作是a=（300 000，14.5，27），在预定义的离散动作集合A中指定。该状态-动作对的最终值是最优Q*（s，a）的估计。如所讨论的，一个状态总共有80个动作值，如图3所示。基于动作值，我们可以表明，动作指数ia= 61给出了最大Q值，并且是该状态下的最佳动作。因此，可以通过搜索每个聚合状态的最大动作值的动作来找到表6结算价和卖出折让对的水平（vkk2次K。表5基于RL的Sarsa TD算法和ε-贪婪策略。投入贴现系数γ;预定ε和α;任意政策π对所有s∈S，所有a∈A初始化Q（s，a）每一次政策改进每一次事件μ初始化s，用ε-贪婪策略π为状态s选择a对于一集的每一步采取行动a并观察r，s′用ε-贪婪策略π为状态s′选择a′Q（s，a）←Q（s，a）+α[r+γQ（s′，a′）s←s′，a←a′End for结束Q^π（s，a）←Q（s，a）f或所有s∈S和所有a∈A政策改进：应用等式(31)和（32）;对所有s∈S和所有a∈A，π←π′预定参数更新：ε、α水平 Isvkuk1水平 VSk结构域1vk[0，0.5A）1{0，2，.，24}2vk[0.5A，0.8A）2{25，26，...，49}3vk[0.8A，1.0A）3{50，51，...，74}4(1.01.1克）ut=A4{75，76，...，99}5[1.11.2克）ut=A5K= 1006[1.2克，1.3克]ut=A7[1.3克，1.4克]ut=A8[1.4g，∞）ut=A表7持有帐户二氧化碳津贴水平，香港.端水平 JShk域（× 1000）水平 JShk域（× 1000）1[0，64]8(2050，3050]2(64，129]9(3050，4050]3(129，193]10(4050，5050]4(193，258]11(5050，5700]5(258，322]12(5700，5750]6(322，1050]13(5750，5850]7(1050，2050]14(5850，6000]Z. Li等人/工程3（2017）2572654.2. Sarsa TD算法的性能在这一节中，我们表明，Sarsa TD算法与时变灵活的CO2捕获水平可以赚取更多的折扣累计利润在整个时间范围内相比，使用固定的捕获水平，这是在大多数相关文献中指定的操作方法。k= 0时的初始保留价为每个津贴12.73美元[11]。此外，引入年度保留价增长率τ，以每年提高保留价。这一年度储备价格增长率可以模拟碳捕获和储存新技术的发展一个结算价格示例如图4所示。可以观察到，结算价格在整个时间范围内波动（即，100个季度），并因年增长率为5%而有预定的增长。加州和魁北克联合温室气体拍卖也设定了同样的增长率[11，14]。为体现Sarsa TD算法的适应性，将CO2配额底价的计划年增长率τ分别设为0%、5%、10%和15%。如果一个特定的年增长率固定为τ=0%，如图5所示，除了竞争对手的曲线（即，实体1），示出了针对实体0的决策者选择的不同投标和操作策略的四个奖励序列。找到了一种投标和操作策略通过具有时变捕获水平的Sarsa TD算法。其他策略选择基于固定捕获电平的操作（即，在整个相关片段中捕获水平被设置为50%、70%或90%），并利用每个聚集状态下的每个动作的预定概率来决定出价选项。基于固定捕获水平的策略的可能的出价选项也来自出价选项集合B0，其与基于Sarsa的统一出价和操作策略的出价选项集合相同。注意，上述奖励序列指示发电厂在其整个寿命期间的基于季度的prof- its。通过计算特定报酬序列的贴现和，可以得到特定投标和操作策略的贴现累积利润。根据图5，可以计算出每种策略在年保留价增长率τ为0%时的贴现累积利润。类似地，如图6-图8所示。当初始持有帐户CO2限额h0= 0.05 × 106，τ在5%~ 15%范围内变化时，可以得到贴现后的累积利润。在特定初始持有账户CO2津贴下不同底价增长率的贴现累计利润h0= 0.05×10 6的数据如图所示。9.第九条。此外，其他初始持有账户二氧化碳津贴的贴现累计利润见图10。10和图十一岁这意味着，无论决策者使用基于固定捕获水平的方法设置什么固定捕获水平，Sarsa TD找到的统一的灵活操作和投标策略都表现得更好。图二. 一个典型的状态-动作对的收敛性，状态is= 5，js=7，vs= 4，ia=61。图三. 特定状态is= 5，js= 7，和对于所有可能的动作，vs= 4见图4。年增长率为τ= 5%，初始底价为g= 12.73美元/津贴。图五、不同投标和运营策略的奖励，年增长率τ = 0%，初始持有帐户CO2限额h0 = 0.05×106。图六、不同投标和运营策略的奖励，年增长率τ = 5%，初始持有帐户CO2限额h0 = 0.05×106。266Z. Li等人/工程3（2017）257见图7。不同投标和运营策略的奖励，年增长率τ= 10%，初始持有帐户CO2限额h0=0.05×106。见图8。不同投标和运营策略的奖励，年增长率τ = 15%，初始持有帐户CO2限额h0= 0.05 ×106。见图9。在初始持有帐户CO2限额为h0= 0.05 ×106，初始保留价为g0= 12.73美元/限额的条件下，对累计利润进行折现。见图10。在初始持有帐户CO2限额为h0=3 ×106，初始保留价为g0 = 12.73美元/限额的条件下，对累计利润进行贴现。见图11。初始持有帐户CO2限额为h0=5 ×106，初始保留价为g0= 12.73美元/限额时的累计利润折现值。4.3. 与备抵市场我们认为，在相同的二氧化碳排放限额市场的竞争对手，实体1相比，决策者的Sarsa TD算法的性能。对于该竞争对手，假设电厂的所有设置与实体0的设置相同。关于操作和投标方法，实体1将其捕获水平固定在60%，而其独立地从B0选择投标选项，与实体0相同。假设实体1的投标选项选择被实体0的决策者用玻尔兹曼分布近似，如下所示：nb在所有可能的投标选项中，每以y= 13为中心的索引减少1因此，所有权重被指定并列出如下：4，5，6，7，8，9，10，11，12，13，14，15，16，15，14，13。与这些权重，选择一个可能的出价选项的概率可以根据等式（1）来预定义。（33）.在实践中，决策者可以获得该竞争对手的历史投标数据或历史市场条件来确定权重。在图12和图13中，分别绘制了决策者和竞争者的持有账户CO2限额hk。两个实体的贴现累计利润见图10。 14，这是来自图奖励序列。 5至图8对于应用Sarsa TD算法的决策者和Pr（y）exp[ω（y）/]exp[ω（z）/]z1（三十三）竞争对手. 图 14、决策者收益打折较多其中y和z是可用投标选项的索引;nb是投标选项集合B0的投标选项总数，等于16; Pr（y）表示选择索引为y的投标选项的概率;并且Pr是分布的温度。从等式(33)大的概率表示每个可能的出价选项的选择几乎是等概率的。为简单起见，在本案例研究中，=1。变量ω表示每个选项的权重，索引为y或z.在我们的模拟中，所有权重中的最大值是一个常数，ωmax=nb。假设第13个投标选项被分配有最大权重，即，ω（y= 13）=ωmax= 16。权重不同的保留价年增长率的累积奖励，这表明在相同的CO2配额市场中，决策者采用Sarsa TD算法的投标和运营策略比竞争者实施的策略更好。5. 结论针对含碳燃煤电厂，提出了一种基于Sarsa TD算法的统一竞价和运行策略Z. Li等人/工程3（2017）257267见图12。决策者持有帐户二氧化碳津贴使用Sarsa TD战略为不同的保留价格增长率。图13岁竞争对手持有帐户二氧化碳津贴不同的底价增长率.图14. 决策者、实体0和实体1的贴现累积利润，初始持有账户CO2备抵为h0=0.05 × 106。捕获.结果表明，该策略采用时变的灵活CO2捕获水平和投标选项集，优于基于固定捕获水平的独立设计投标策略。Sarsa TD算法可以在不同的CO2配额市场条件下，如不同的保留价年增长率或不同的初始持有帐户 CO2配额，最大化电厂的贴现累积利润此外，与采用Boltzmann分布随机设计竞价策略的固定捕获水平电厂相比，采用Sarsa TD算法的竞价策略的决策者在CO2配额市场上更具竞争力。遵守道德操守准则Ziang Li、Zhengtao Ding和Meihong Wang声明他们没有利益冲突或财务冲突需要披露。引用[1] 杨华，王明，王明.燃煤电厂燃烧后捕集CO2吸收的动态模拟燃料2009;88（12）：2455- 62.[2] 王M，Lawal A，Stephenson P，Sidders J，Ramshaw C.燃烧后CO2的化学吸收捕集：最新进展综述。Chem Eng Res Des 2011;89（9）：1609-24.[3] 林玉君，潘泰华，黄达圣，姜世胜，池永伟，叶春。单乙醇胺溶液吸收和汽提二氧化碳的全工厂控制。Ind Eng Chem Res 2011;50（3）：1338-45.[4] 林英君，黄德熙，张SS，欧俊杰。含CO2捕集装置电厂柔性运行控制策略AIChE J2012;58（9）：2697[5] Luu MT，Manaf NA，Abbas A.基于胺的燃烧后CO2捕集系统灵活操作的动态建模和控制策略。Int J Greenh Gas Control 2015;39：377[6] Nittaya T，Douglas PL，Croiset E，Ricarcart-Sandoval LA.发电厂二氧化碳捕集MEA吸收过程的动态模拟与控制。燃料2014;116：672-91。[7] Sahraei MH，Ricarcant-Sandoval L. 基于模型预测控制的CO2捕集装置的可控性和优化调度Int J Greenh Gas Control 2014;30：58-71.[8] 作者：Luo X，Wang M.不同市场条件下基于MEA的天然气联合循环电厂燃烧后碳捕集优化运行选择。Int J Greenh Gas Control 2016;48（2）：312[9] 放大图片作者：Michael N.CO2捕获的成本最优程度的识别：使用动态过程模型的优化研究Int J Greenh Gas Control 2013;13：44[10] Luckow P，Stanton EA，Fi

下载后可阅读完整内容，剩余1页未读，立即下载