AI赋能流程制造中的Actor-Critic研究工程

70 浏览量更新于2024-01-22 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程7（2021）1248研究AI赋能流程制造-ArticleActor–CriticOguzhan Dogru#，Kirubakaran Velswamy#，BiaoHuang阿尔伯塔大学化学与材料工程系，埃德蒙顿，AB T6G 1H9，加拿大阿提奇莱因福奥文章历史记录：收到2020年2020年11月4日修订2021年4月2日接受2021年8月14日网上发售保留字：界面跟踪对象跟踪遮挡强化学习一致流形逼近与投影A B S T R A C T本文通过将目标跟踪形式化为一个序列决策过程，将控制理论与计算机视觉相结合。强化学习（RL）代理成功地跟踪两种液体之间的界面，这通常是在许多化学、石化、冶金和石油工业中跟踪的关键变量。这种方法利用不到100张图像来创建一个环境，代理可以从中生成自己的数据，而不需要专业知识。与依赖于大量参数的监督学习（SL）方法不同，这种方法需要的参数要少得多除了其节俭的性质，代理是强大的环境不确定性，如闭塞，强度变化，和过度的噪音。从闭环控制上下文，基于接口位置的偏差被选择为训练期间的优化目标。该方法展示了RL在油砂行业中的实时对象跟踪应用。随着界面跟踪问题的介绍，本文提供了一个最有效的强化学习方法之一：©2021 THE COUNTORS.Elsevier LTD代表中国工程院出版，高等教育出版社有限公司。这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。1. 介绍油砂矿含有沥青、水和矿物质。沥青是一种高粘度的碳氢化合物混合物，可以通过几种化学和物理过程提取。产物在蒸馏装置或精炼厂[1]中进一步处理以获得更有价值的副产物（例如，汽油、喷气燃料）。油砂是从露天矿开采出来的，然后装上卡车运到破碎机[2]。之后，用热水处理混合物以水力输送到提取设备。曝气和几种化学品的引入，以加强这一进程。在萃取设备中，混合物在初级分离容器（PSV）中沉降。一种水基油砂分离方法总结于图11中。1.一、在PSV内部的分离过程中，形成了三层：泡沫、中矿和尾矿（图1）。 2）的情况。在泡沫层和中矿层之间形成界面（此后称为其相对于PSV单元的水平影响提取的质量。*通讯作者。电子邮件地址：biao. ualberta.ca（B. 黄）。#这些作者对这项工作做出了同样的为了控制FMI水平，使用可靠的传感器至关重要。传统上，使用差压（DP）单元、电容然而，这些都是不准确的或报告是不可靠的[3]。观察镜用于手动监控界面是否存在任何过程异常。为了在闭环控制中利用这种观察，参考文献[3]提出使用摄像机作为传感器。该方案利用粒子滤波的边缘检测模型对图像进行滤波，得到FMI级，然后利用该模型建立反馈控制。最近，参考文献[4]将边缘检测与动态帧差分相结合来检测界面。该方法直接使用边缘检测技术来检测接口，以及估计测量质量的帧比较参考文献[5]使用混合高斯分布来模拟泡沫、界面和中间物的外观，并使用时空马尔可夫随机场来预测界面尽管利用基于界面的外观或行为的模型解决了若干挑战，但这些技术未能解决对不确定环境条件的敏感性，例如遮挡和过度/非高斯噪声。监督学习（SL）方法试图从输入（即，图像，x）输出（即，标签，y）通过最小化成本来获得数据https://doi.org/10.1016/j.eng.2021.04.0272095-8099/©2021 THE COMEORS.由爱思唯尔有限公司代表中国工程院和高等教育出版社有限公司出版。这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可从ScienceDirect获取目录列表工程杂志首页：www.elsevier.com/locate/engO. Dogru，K.Velswamy和B.黄工程7（2021）12481249图1.一、水基油砂分离工艺的简化说明PSV位于提取装置中图二. PSV的示意图。在分离过程中，形成三层。摄像机用于监控中矿和泡沫层之间的界面，以最佳地控制FMI液位。(or损失）函数。通常，成本函数是凸的，并且通过将随机梯度下降算法[6，7]应用于成本函数来计算最优参数。另一方面，无监督学习（UL）方法用于找到未标记数据中的隐藏特征（即，仅使用x）[8]。目标通常是压缩数据或找到数据中的相似之尽管如此，UL技术不考虑输入对输出的影响在计算机视觉中，这些方法是使用卷积神经网络（CNN）实现的CNN是对输入应用卷积运算的参数函数它不仅可以处理像素，还可以处理其相邻像素，从而提取抽象它用于分类，回归，降维等[9尽管CNN已经使用了几十年[13-这是由于硬件技术[21]和数据可用性[22]的发展。与计算机视觉的发展平行，递归神经网络（RNN）用于时间序列预测，其中网络的随机输出被反馈到自身[23]，可以被认为是递归矩阵乘法。然而，vanilla RNN[24]遭受梯度递减或爆炸，因为它反复将先前的信息反馈回自身，导致隐藏层之间不均匀的反向传播数据共享。因此，当数据序列任意长时，它往往会失败。为了克服这个问题，更复杂的网络，如长短期记忆（LSTM）[25]和门控递归单元，[26] 已提出这些网络促进数据传输，在隐藏层之间，使学习更有效。最近，LSTM的一个变体称为卷积LSTM（ConvLSTM）。[27] 据报道，LSTM的性能，以取代矩阵乘法与卷积运算。与完全连接的LSTM不同，ConvLSTM接收图像而不是一维数据;它利用输入数据中存在的空间连接并增强估计。多层网络被认为是深层结构[28]。已经提出了各种深度架构[29-然而，这些结构遭受过度参数化（即，训练数据点的数目小于参数的数目几种正则化技术（例如，dropout，L2）[17]和转移学习（也称为微调（FT））方法[34，35]试图找到一种解决方案来提高网络然而，传输的信息（例如，网络参数）对于目标域可能不够通用这个问题变得很重要，特别是当训练数据不足或它们的统计数据与目标域中的数据显著不同时此外，递归网络的有效迁移学习目前仍然是进一步研究的机会。强化学习（RL）[36]结合了SL和UL技术的优点，并将学习过程形式化为马尔可夫决策过程（MDP）。受动物心理学[37]和最优控制[38控制器）。与SL或UL方法不同，RL不依赖于离线或批处理数据集，而是通过与环境交互来生成自己的数据。它通过考虑直接后果来评估其行动的影响，并通过推出来预测价值。因此，它更适合于涉及复杂系统决策的真实或连续过程。然而，在基于采样数据的方案中，数据分布在训练期间可能会显著不同，这可能会导致估计的高方差[36]。Actor–critic methods 这种方法将主体分为两部分：行动者决定采取哪种行动，而批评者使用行动价值[47]或状态价值[48]函数来估计该行动的好处。这些方法不依赖于任何标签或系统模型。因此，对状态或动作空间的探索是影响智能体在系统识别中[49已经开发了各种方法来解决勘探问题[36，48，52作为机器学习的一个子领域[59-61]，FMI跟踪可以用公式表示为对象跟踪问题，这可以分别使用无检测或基于检测的跟踪方法在一个或两个步骤中解决。以前的工作[82在这种组合的情况下，跟踪算法还需要可靠且快速以用于实时实现。已经提出了几种目标跟踪算法，包括多目标跟踪算法O. Dogru，K.Velswamy和B.黄工程7（2021）12481250●~XG< $RcRcR·· · <$cR1吉吉吉吉2 2 2 ⊂pp不不pt1t1hi不使用RL的算法[85所提出的方案将预先训练的对象检测与基于RL的跟踪或监督跟踪解决方案相结合。这些模拟是在理想条件下进行的[91，92]。基于目标检测的方法的性能通常取决于检测精度。即使智能体根据一个定义明确的奖励信号学习跟踪，研究人员也应该确保感官信息（或感官信息的特征）是准确的。基于模型的算法通常假设感兴趣的对象具有刚性或非刚性形状[4]，并且噪声或运动具有特定模式[3]。当意外事件发生时，这些假设可能不成立。因此，无模型方法可以提供更一般的解决方案。由于CNN可以提取抽象特征，因此在训练后对其进行分析非常重要。常见的分析技术利用激活函数、内核、中间层、显着图等信息[30，93在RL上下文中，一种流行的方法是使用t-分布随机邻居嵌入（t-SNE）[96]来减少观察到的特征的维度，以可视化不同状态下的代理[72，97，98]。这有助于根据代理遇到的不同情况对行为进行聚类。另一种降维技术-即均匀流形近似和投影（UMAP）[99]-将高维输入（在欧几里得空间中可能没有意义）投影到黎曼空间中。通过这种方式，可以降低非线性特征的维数。图3示出了过程工业中的一般控制层级。在连续过程中，层次结构中的每个级别以不同的采样频率彼此相互作用。相互作用开始于仪表水平，这会对上层产生重大影响。最近，参考文献[2]提出了一个解决方案的exaction-tion水平。然而，解决其他层面的问题仍然具有挑战性。在这里，我们提出了一种新的接口跟踪方案的基础上RL是一个无模型的顺序决策代理训练这项工作：提供了一个详细的评论将接口跟踪公式化为无模型的顺序决策过程;结合CNN和LSTM来提取时空特征，而无需任何显式模型或不切实际的假设;在奖励函数中使用DP单元测量，而无需任何标签或人为干预;使用允许代理在闭环控制设置中连续学习在开环设置中的不确定性中验证鲁棒性;在简化的特征空间中分析智能体本文的组织如下：第2节提供了演员-评论家算法的回顾并对测试结果进行了详细的分析，最后提出了结论和今后的工作方向。图三.流程工业中的一般控制层次结构。RTO：实时优化; MPC：模型预测控制; PID：这种能力允许RL在不确定的条件下使用[40]，具有不规则的采样率。它的多功能性使RL适应不同的环境条件，并允许它从模拟环境转移到真实过程[80]。2.1. 马尔可夫决策过程MDP通过元组M制定离散顺序决策过程，M由X;U;R;P;c组成，其中x X，u U，r RR分别是状态，动作和奖励。 Px0;rx;u表示系统动力学或状态转移概率，其可以是确定性的或随机的。它满足马尔可夫性质[100]-也就是说，未来的状态只取决于当前的状态，而不取决于未来的状态。在此之前的历史。在这项工作中，系统动力学是未知的代理，以使这种方法更普遍。贴现因子c2½0;1是未来奖励的权重，使它们的总和有界。随机策略pu x是从观察到的系统状态到动作的映射在MDP中，代理观察到状态x0r0，其中r0表示初始状态的分布。然后，它选择一个动作 u~pujx ，该动作将代理带到下一个状态x0~Px0;rjx;u，并产生奖励，r~Px0;rjx;u。通过利用序列（即，x，u，r，x），智能体学习策略p，该策略导致最大化贴现收益，G，如等式中所定义的。（1）[36]：21ktt 1t 2t 3tk 1k¼0其中t和k表示离散时间步长。状态值vp（x）和动作值qp（x，u）函数使用贝尔曼方程（Eqs. （2）和（3））：vxE½GjXx]E½RcGjX¼x]分别在第5节和第6节2. ACTOR CRITICAL强化学习综述RL是一个严格的数学概念[36，39，42]，其中智能体学习一种行为，该行为使总体回报最大化，[1/4 RupujxRx0RrPx0;rjx;ul/2rcvpx0];8x2Xqpx;u<$Ep½GtjXt<$x;Ut<$u]1/4Rx0RrPx0;rjx;u1/2rcRu0pu0jx0qpx0;u0];8x;u2X×Uð2Þð3Þ动态环境与人类类似，智能体通过考虑未来的回报来学习如何做出明智的决策。这意味着考虑观察的时间方面，不同于简单的分类或回归方法。其中E是随机变量的期望。在对每个状态的值函数进行估计之后，可以使用等式找到最佳值（v ωp<$x<$x ; u <$x; q ω p<$x ;u<$）函数。（四）（5）：●●●●●●●O. Dogru，K.Velswamy和B.黄工程7（2021）12481251ppu吉吉ð j Þ ð j Þ2½ÞRΣ Σ ΣΣvωpxmaxvpx;8x2X4qωpx;u;maxqpx;u表1基于动作空间类型和探索方法的actor-critic算法比较。对于所有算法，状态空间可以是离散的或连续的。<$E½Rt<$1cvωXt<$1jXt <$$>x;Ut<$u];8x;u2X×Uð5Þ在此之后，最优策略p * 可以如下所示：pωxargmaxqωpx;u6对于大规模问题，可以使用线性或非线性函数逼近技术来找到逼近的值函数Q^x;ux，V^xx，或两者，其中x表示逼近函数的参数。这些结构也被称为批评家。本文着重于状态值的估计，并将其简化为V（V）。2.2. Actor-Critic算法综述早期的方法使用基于值（仅限临界）RL[71，101]来解决控制问题。在这些方法中，行动直接来自价值函数，据报道，这对于大规模问题是发散的[45，102]。基于策略的（仅参与者）方法[103-然后通过使用性能度量直接优化该函数然而，估计的方差和延长的学习时间使得策略梯度不切实际。类似于生成对抗网络（GAN）[106]，它利用生成和判别网络，这些技术分别通过演员和评论家结合了基于策略和基于价值的方法。这种辅助估计显著降低了方差，并有助于学习最佳策略[36，55]。演员和评论家可以被表示为两个神经网络，DDPG：深度确定性策略梯度; A2 C：优势行动者-批评者; A3 C：异步优势行动者-批评者; ACER：具有经验重放的行动者-批评者; PPO：邻近策略优化; ACKTR：使用克罗内克因子信任区域的行动者-批评者; SAC：软行动者-批评者; TD 3：双延迟深度确定性策略梯度。该方案利用策略梯度来改善行动者网络.由于值函数是基于不同的行为策略为目标策略学习的，因此DDPG是一种脱离策略的方法。2.2.2. 异步优势异步优势行动者-批评者（A2 C/A3 C）方案[48]不是将经验存储在需要内存的重放缓冲区中，该方案不是基于Q函数最小化误差，而是最小化用于批评者更新的优势函数（A或d）的均方误差，如等式（1）所示。（八）、A¼d ¼Rt V Xt1-VXt 8在该方案中，通过使用Eq.并且策略的熵被用作参与者损失函数中的正则化器以增加探索，如等式（9）所示（十）：p<$ujx;h<$（其中h表示参与者网络的参数）和V xx（或Q x;ux）。尽管已经提出了几种基于模型的一些这些方法使用熵正则化，而其他方法则使用dxG←dxGacrxLdxtjxLdhG←dhGaarhLdxtjxLlnputjxt;hLbputjxt;hLlnputjxt;hLð9Þð10Þ启发式方法的优点。这些方法的一个常见示例是e-贪婪方法，其中代理以概率e0; 1采取随机动作。其他探索技术包括但不限于将加性噪声引入动作空间、将噪声引入参数空间以及利用置信上限。感兴趣的读者可以参阅参考文献[67]以了解更多细节。The actor–critic algorithms are summarized as2.2.1.深度确定性政策梯度该算法已被提出来将离散的、低维的基于值的方法[71]推广到连续的动作空间。深度确定性策略梯度（DDPG）[47]利用了演员和评论家（Q）以及目标评论家（Q0）网络，其是评论家网络的副本。在观察一种状态后，实值动作从参与者网络中采样并与随机过程混合（例如，其中初始dhG = dxG = 0。向左箭头（←）表示更新操作;c和a分别是批评者和行动者的学习率;是关于其下标的导数;以及b是用于鼓励探索的固定熵项。下标L和G分别代表本地网络和全局可以以离线方式使用多个工作者（A3C），并且该方案可以减少到单个工作者（A2C）以在线实现。尽管工作者是独立的，但他们基于全局网络的行为策略来预测值函数，这使得A3C成为一种基于策略的方法。这项工作利用A3C算法来跟踪接口。2.2.3. Actor–critic with experience具有经验重放的（十一）：QretXt;UtRtcg<$t 1Qre tXt1;Ut1-QXt1;Ut1[111]鼓励探索。代理将状态、动作和奖励样本存储在经验重放缓冲器中，以打破连续样本之间的相关性，从而提高þcV哪里的截短重要性权重，ð11Þg<$t¼minfc;gtg，学习它使损失函数的均方误差最小化L，以优化其临界点，如等式2所示（七）、LRtcQ0Xt1;Ut1-QXt;Ut7gt/l1UtjXt=l2UtjXt，并且c是限幅常数。L1和L2分别是目标和行为策略。此外，该方案利用随机决斗网络（以估计V和Q以一致的方式）和信赖域策略优化2算法动作空间探索DDPG连续吵闹的行动A2C或A3C离散/连续熵正则化宏碁离散/连续熵正则化PPO离散/连续N/AACKTR离散/连续N/ASAC连续熵正则化TD3连续吵闹的行动O. Dogru，K.Velswamy和B.黄工程7（2021）12481252ΣΣ-ΣΣ（TRPO）方法比以前的方法更有效[114]。由于其回溯算法，ACER是一种非策略方法。2.2.4. 最近策略优化邻近策略优化（PPO）方法[115]通过裁剪代理目标函数来改进TRPO[114]，如等式116所示（十二）：然后在一个行动约束的钟摆和一个推车杆摆动的问题进行了测试。参考文献[125]在约束MDP上采用了参考文献[46]展示了基于常规和自然梯度估计的四种增量参考文献[126]介绍了一个自然的参考文献[127]提出了一个连续时间的并通过两个非线性仿真实验验证了算法的收敛J CLI P.我的孩子老 x;u老 x;uð12Þ仿真环境参考文献[128]提出了一个在线的其中H表示策略参数（即，h_old表示旧策略参数，r_（h_old）=p_（h_oldA是代表智能体（八）、2.2.5. Actor–critic using Kronecker-factored trust代替梯度下降[6]算法来优化演员和评论家网络，使用Kronecker因子信任域（ACKTR）的它通过使用Kronecker因子近似[117，118]来近似Fisher信息矩阵（Fisher information matrix）的逆，克服了计算的复杂性，否则Fisher信息矩阵（Fisher information matrix）相对于近似的参数呈指数级缩放。此外，它还跟踪Fisher统计量，这会产生更好的曲率估计。2.2.6. Soft与使用策略的熵作为损失正则化器的方法不同[48，114，115，119]，软（13）鼓励探索。这种方法也被报道[120]，以提高政策对模型误差的鲁棒性其中h 表示策略的参数，a是用于调整熵的贡献的用户定义的（固定的或时变的）权重，并且H = E [ log p（log）]。该方案依赖于Q和V函数来利用软策略迭代。与DDPG和ACER类似，SAC将转换存储在重放缓冲器中，以提高采样效率。除了加强探索，熵最大化-均衡补偿了由偏离策略方法引入的稳定性损失。2.2.7. 孪生延迟深确定性政策梯度双延迟深度确定性政策梯度（TD3）[121]解决了由于函数近似和自举（即，而不是精确值，在更新步骤中使用估计值）。为了实现这一目标，该计划预测两个单独的行动价值观，并倾向于悲观的价值观，因此，它避免了次优的政策。TD3利用目标网络，延迟对策略函数的更新，并通过从重放缓冲器采样N个转换来使用平均目标值估计，以减少学习期间的方差。该方案通过向采样动作添加高斯噪声来引入探索，并使用确定性策略梯度执行策略更新[104]。虽然上述算法提供了控制问题的一般已经提出了许多其他算法来解决这些缺点。例如，参考文献[123]通过Hamiltonian-Jacobi-Bellman（HJB）方程[39，124]将参考文献[44]提出的离散行动者-批评者方法扩展该算法严格的收敛性分析，以及线性和非线性仿真实例。参考文献[129]提出了一种增量、在线和离线策略的该建议定性地分析了趋同，并以实证结果支持它。此外，将时间差（TD）方法与最小化投影贝尔曼误差的梯度TD方法进行了比较[36]。参考文献[130]提出了一种学习完成后，该方案显示出过程稳定性。然而，需要输入增益矩阵的知识。参考文献[131]使用标称控制器作为监督器来指导执行器，并在模拟巡航控制系统中产生更安全的控制。参考文献[132]提出了在保持系统稳定性的前提下，学习部分未知的输入约束系统的HJB方程的解。参考文献[133]通过考虑李雅普诺夫理论，设计了一种容错的参考文献[134]利用HJB方程和二次代价函数定义值函数，建立了一个输入受限的非线性跟踪问题该方案采用行动者-批评者算法得到近似值函数。参考文献[135]结合分类和时间序列预测技术来解决最优控制问题，并在模拟连续搅拌釜反应器（CSTR）和模拟非线性振荡器上展示了所提出的算法。提出了平均参考文献[137]利用事件触发的行动者-批评者方案来控制供暖、通风和空调（HVAC）系统。除此之外，还有更多关于不同的演员评论家算法及其应用的最新研究，如参考文献中所报道的。[2，62，67，138已经提出了几种方法来改善价值估计，在RL[146-148]中此外，已经报道了不同的技术[112，149]来提高样品效率（即，以减少学习最优策略所需的数据量）。与使用经验重放[70]或监督数据[150]的技术不同，这些工作者具有与全局网络相同的基础设施，并且在收集k个样本之后，用于更新全局网络的参数。这减少了内存的使用量，并提高了探索，因为工人有独立的轨迹。任务分配可以通过多个机器[151]或单个计算机的多个中央处理单元（CPU）线程[48]来执行。最优策略和最优批评家在每种情况下都是不同的过程中，他们往往是未知的先验。蒙特卡洛类型的方法计算经验回报（在方程中给出）。（1））在过程（或一集）结束时，这可能是冗长和嘈杂的。类似于心理学中的巴甫洛夫条件反射，TD学习O. Dogru，K.Velswamy和B.黄工程7（2021）12481253Xk吉吉X×-2 ⊂2 ¼ f-g×[1/2]预测当前状态的值。与蒙特卡罗方法不同，它可以预测小范围的情况，低至一步。这将无限水平问题转化为有限水平预测问题。而不是计算回报的期望（如在方程。（2）），可以使用TD误差d的k步提前估计来更新批评网络，如等式（1）所示。（十四）、这就是所谓的政策评估。K-1dxtjxLcRticVxtkjxL-VxtjxL141/4其中d是在离散采样时刻t处状态x的TD误差，给定局部网络的临界参数xL，k表示时域长度。如果k接近无穷大，则求和项收敛于等式中给出的经验回报。（一）. 与策略梯度算法相比，基线V xtxL用于减少方差[36]。在k步结束时，全局网络的参数（即，hG和xG）使用方程更新。（9）和（10）。3. 将接口跟踪公式化为顺序决策过程3.1. 接口跟踪模型是一种描述过程动态的数学手段，可以发生在物理/化学/生物系统[153]或视频[154]中。当存在意外事件（例如，闭塞）。为了克服这一点，来自最后一次有效观察的信息被用于下一次观察[4]或重建图像[154]。虽然这些解决方案可以在短时间内替代实际测量，但长时间暴露会降低闭环稳定性。因此，如果FMI这降低了产品质量，并产生了环境足迹。相反，如果其水平更接近提取点，则被提取的泡沫中的固体颗粒使下游操作复杂化[3]。由于FMI水平的偏差会影响下游工艺，因此在最佳点调节FMI非常重要RL可以解决遮挡和过度噪声期间的不准确性。这可以通过将DP单元测量或来自任何其他可靠仪器的测量与代理的当前FMI预测相结合来完成，以在训练阶段期间在奖励函数中提供准确的成本，而无需诸如边界框之类的外部标签。消除对这些标签的依赖，最大限度地减少了人为错误。为了实现这一点，代理可以在PSV的观察窗上的垂直轴上移动裁剪框基于此偏差，智能体可以将框移动到最佳位置，其中框的中心与FMI的中心相匹配。这种偏差最小化反馈机制受到控制理论的启发，并且它可以使用从真实过程获得的测量来增强基于图像的估计。将从视频流采样的灰度图像I考虑为I2RH×W，具有任意宽度W和高度H，可捕获整个PSV。考虑一个矩形裁剪框B2RN×M，见图4。使用照相机获得的帧（I）。(a)图像的大小（H×W）和裁剪框的大小（N×W）;（b）裁剪框的大小（N×M）和初始裁剪框位置;（c）示例遮挡及其比率q。接口测量传感器，这被认为是准确的离线实验室环境。这个问题的MDP的组成部分可以定义如下：状态：矩形内的像素，x BXI。这些像素可以被认为是N，M个独立的传感器。操作：将裁剪框的中心向上或向下移动1个像素，或冻结;uU1; 0; 1.奖励：在每个时间步长t，DP单元测量值与盒子中心位置（参考PSV底部）之间的差值，在等式中给出。（十五）、Rt¼-jzt-^ztj15ut和^zt之间的关系由等式给出。（十六）、t-1^zt^^z0ui1 61/4其中^z0是任意初始点，和ion项表示到第t个时刻为止采取的动作（ui= +1表示向上，ui= 1表示向下）。贴现系数：c= 0.99。此代理的目标是生成一系列操作，以将裁剪框B覆盖在PSV的垂直轴上，界面位于其中心。为了实现这一点，代理需要进行长期规划，并保持其动作和从DP小区测量获得的信息之间的关联。所提出的方案的流程图在图5中示出。此外，图6和表2详细显示了网络。关于ConvLSTM层的更多细节可以在参考文献中找到。[27]第10段。与以前在状态空间中进行预测的工作[4，5]（9）、（10）、（14）。此外，委员会认为，CNN和ConvLSTM层通过使用Eq.（17）.W←W0：5×acrWd·jWL2具有任意宽度M和高度N，其中fN：N^2^z-1;^z>12Ng，并且^z是矩形的中心L0：5×aarWLdð17Þ图4（a）中示出了示例图像和裁剪框。这个矩形将^z处的I裁剪成大小为N的M. 为求完备性，H>N，W=M.考虑在时间t从DP单元获得的界面测量作为z。注意，DP单元仅在RL代理的离线训练中使用，并且可以由其他单元替换其中WwCNN;wConvLSTM表示CNN和ConvLSTM层的参数。该方案通过仅使用TD误差来训练整个网络端到端。多名工人[48]，在不同的点初始化（图4（b））可以用来改善探索，从而推广。O. Dogru，K.Velswamy和B.黄工程7（2021）124812541/4Bb100美元。b不好意思 ΣΣbωω)Vx¼xzþu ≥Vxzp0 0p0！N1图五、拟议学习过程的流程图更新机制如等式2所示（9）和（10）与k步策略评估，如等式（1）所示（十四）、在找到一个次优策略后，保证代理在有限的时间步长k内找到接口，与初始点无关，如引理3.1所示。引理3.1：在任何时间t，为一恒定zt，与P1/4;9k：zt-。bz0Pk ui=0，u~ p n· j h ω n =0，u ~p n·jωn=0，u~pn·j ω n = 0，u ~ p n = 0，u ~ p n = 0，如K？ N，其中nk≤N

下载后可阅读完整内容，剩余1页未读，立即下载