基于注意力增强双向LSTM的剩余使用寿命估计编码器-解码器网络设计-C-MAPSS数据集的研究

193 浏览量更新于2024-01-02 收藏 2.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用10基于注意力增强双向LSTM放大图片作者：Sayed Rafay Bin Shaha， Gavneet Singh Chadhaa， Andreas Schwunga， Steven X.丁乙a南威斯特伐利亚应用科学大学自动化技术系，Luebecker Ring 2，Soest 59494 Germanyb杜伊斯堡-埃森大学自动控制和复杂系统系，Bismarckstrasse 81，杜伊斯堡47057德国Ar t iclei n f o ab st r act文章历史：2021年5月31日收到2021年7月8日修订2021年7月20日接受2021年7月31日在线提供保留字：剩余使用寿命估计编码器-解码器网络双向长短期记忆注意机制我们提出了一种新的序列到序列预测方法，用于估计剩余使用量-技术组件的完整寿命（RUL）。该方法基于深度递归神经网络结构，即双向长短期记忆（LSTM）网络，我们使用注意力机制对其进行增强，以允许输入和输出序列之间的更细粒度的信息流。使用基础架构作为参考，我们实验了各种形式的注意力机制以及不同形式的额外输入嵌入。此外，我们还分析了序列长度对估计质量的影响。我们将我们的方法应用于众所周知的C-MAPSS数据先前用作RUL预测的基准数据集。我们获得了最先进的结果，数据集，并提供了一个彻底的超参数研究，强调，更简单，但良好的调整架构可以实现可比或更好的性能比高度复杂的架构。© 2021作者由Elsevier Ltd.发布。这是一个CCBY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）1. 介绍要求制造环境和机器在24/ 7环境中运行，这对生产管理提出了很高的挑战。由于所需的高工作量，应避免机器防止意外停机的一种常用方法是在生产计划中纳入经常性维护措施。这种周期性维护可防止机器发生严重故障，但由于不必要的维护操作，可能会导致机器停机。预测性维护方法提供了一种基于全面状态监测的解决方案 Martin （ 1994 ） ;Nandi 等人（2005），该方法通常使用组件中的降解过程模型，以便更详细地预测未来停机时间Isermann（2005）。这种预测性维护产生了各种优点，例如备件的经济库存管理、基于预测的故障倾向设备的计划维护、系统的条件监控和生命周期优化。然而，推导模型∗通讯作者。电子邮件地址：shah. fh-swf.de（S.R.B.Shah）。预测性维护可能是一项具有挑战性且耗时的任务。与此同时，即将到来的数字化将为现代生产环境提供越来越多关于机器实际状态的信息。在整个过程中使用各种传感器读数和测量值，可以详细了解整个工厂的状况，持续监控生产过程，并有助于分析生产可能存在的弱点。因此，所获得的数据可用于基于数据的维护目的。已经提出了各种基于数据的维护方法，概述见Jardine et al.（2006）;Tsui et al.（2015）。基于数据的维护的关键方法之一是使用历史数据估计机器的剩余使用寿命（RUL）。（2018年）。RUL是对一个项目、产品、组件或系统在需要更换之前用于其预期目的的持续时间的估计。RUL估计包括对系统中的降级模式进行建模，该降级模式可能由于正常操作（无故障症状）或在检测到故障之后而出现。因此，有效的RUL估计方法保证了产品的安全运行，直到其生命结束。在数据驱动的RUL估计的各种方法中，由于深度学习领域的最新进展，神经网络似乎特别有用。Goodfellow et al. （2016年）。https://doi.org/10.1016/j.iswa.2021.2000492667-3053/© 2021作者。出版社：Elsevier Ltd这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）目录可在ScienceDirect智能系统及其应用期刊主页：www.elsevier.com/locate/iswaS.R.B. Shah，G.S.Chadha，A.Schwung等人智能系统与应用102神经网络已经在不同的应用领域进行了研究，包括建模Esenet al.（2008）;Hikmet Esen et al.（2009，2017），预测HikmetEsen et al.（2008 a，b），机器健康监测Zhao et al.（2019 a）和RUL估计。主要是卷积神经网络（CNN）Yann LeCun等人（1990）和递归神经网络（RNN），如长短期记忆（LSTM）Hochreiter 和 Schmidhuber （ 1997 ），以及门控递归单元（GRU）Junyoung Chung等人（2014）提供了执行RUL估计的更动态和有效的方法。本文介绍了一种新的深度学习架构，用于直接对原始数据集进行有效寿命估计。值得注意的是，我们建议应用序列到序列架构Sutskever（Vinyals）最有名的自然语言处理任务，以提取复杂的退化模式固有的RUL估计从机器的传感器读数。为此，我们选择双向LSTM作为基础网络，我们以编码器-解码器（ED）风格的方式操作。最近的改进，编码器-解码器架构提供的注意力机制，我们增加了不同的注意力模块，主要是在映射输入和隐藏变量的注意力键和查询的架构。此外，我们提供了一个详细的讨论不同的ED架构超参数的RUL估计性能和序列处理所需的输入编码的影响。将该方法应用于著名的C-MAPSSSaxena等人（06/10/2008 - 09/10/2008）基准数据集，并与其他方法进行了比较。所提出的架构所获得的结果执行优于或等同于实际的国家的最先进的方法下衬的方法的适用性。特别是，我们表明，即使是更简单的架构可以导致可比或更好的性能比更复杂的架构，具有大量的参数。该文件的贡献可归纳如下：• 我们提出了一种新的方法，剩余使用寿命估计的基础上，注意力增强序列到序列神经网络使用双向LSTM。序列到序列的框架似乎非常适合于涵盖RUL估计下的固有非线性趋势分析问题。• 提出了一种新的共享核卷积（SKC）神经网络方法作为双向LSTM的编码器，以建模不同输入变量之间的相互依赖关系。• 为了更好地表征系统的健康状态，提出了一种通用的滑动窗口目标序列生成方法。• 我们讨论了架构的变化，包括对双向LSTM的隐藏表示和各种类型的输入嵌入进行操作的不同此外，我们分析了序列长度对预测精度的影响• 我们将该方法应用于著名的C-MAPSS数据集，作为一个非常具有挑战性的基准研究在以前的作品。我们报告的国家的最先进的结果的数据集与轻量级和简单的架构。该文件的组织如下。第2节讨论了与我们的方法相关的工作。第3节介绍了所考虑的神经网络结构的相关信息。第4节介绍了使用RNN进行RUL估计的新方法，随后描述了5中序列到序列NN的训练数据集生成和数据集描述6。第7节我们提供C-MAPPS数据集的结果。第8节结束了论文。2. 相关工作我们对剩余使用寿命估计方法进行了概述，特别强调了最近流行的深度学习方法，同时我们参考了 Jardine et al.（2006）;Tsui et al.（2015）对经典技术的概述。Khan和Yairi（2018）对深度学习方法在生物学和健康管理中的应用进行了综述。值得注意的是，两种类型的深度神经网络（DNN）已用于RUL估计，即RNN和CNN。此外，在文献中已经提出了结合这两种网络类型的各种架构。在Zheng et al.（2017）中，提出了一个与多个全连接（FC）层相结合的堆叠LSTM网络，而在Wang et al.（2018）中，显示了一个具有额外全连接（FC）层的堆叠双向LSTM网络，用于C-MAPSS数据集的RUL预测或者，Zhao et al.（2019 b）首先构建趋势特征，并将其输入到堆叠的LSTM网络中，以预测RUL。Listou Ellefsen等人（2019年）提出的方法引入了一个无监督的预训练阶段，使用受限玻尔兹曼机（RBM）来提取复杂的原始输入特征，随后采用遗传算法来调整超参数。在预训练之后，执行监督训练以用于RUL预测。Wu等人提出了一种香草LSTM神经网络模型以及动态递归技术，以获得良好的RUL预测精度。（2018年）。 Elsheikh等人提出了一种用于C-MAPPS数据集的RUL估计的双向LSTM模型。（2019年）。为了进一步加强基于RNN的编码器-解码器层在能力方面，注意力机制已经在 Dzmitry Bahdanau 等人（2015）和Luong等人（2015）中提出，以允许每个解码器状态在生成下一个输出之前关注所有编码器隐藏状态。请参阅Chaudhari et al.（2019 b）对不同类型注意力方法的详细概述。虽然这些方法专注于机器翻译任务，但Chen等人（2021）使用这种注意力机制进行RUL预测，其中提取手工特征，与LSTM输出连接并馈送到回归层。Ragab等人（2020）提出的基于注意力的LSTM编码器-解码器网络重构输入数据，并使用并行RUL预测器层生成RUL。RUL预测器层接收双重潜在特征表示，即，参与编码器潜在表示和潜在解码器表示作为输入。Kiranyaz等人（2021）对用于机器状态监测的1D CNN模型进行了调查。CNN首次用于RUL估计可以追溯到Sateesh Babu等人（2016），而Li等人（2018）使用单位宽度的内核执行卷积运算。这些单位宽度卷积核允许在原始传感器之间共享核权重，从而增强网络学习抽象特征信息的能力。最近，GavneetSingh Chadha等人（2021）提出了一种用于RUL估计的广义扩张CNN方法，以对长期时间依赖性进行建模。 Tan和 Teo（2021）提出了一种基于注意力的CNN方法，其中CNN提取多个时间轴上的特征，并将其输入注意力层以预测RUL。Tan和Teo（2021）的工作在注意力机制中用Sigmoid激活替换了Softmax激活，以添加多变量RUL估计功能。Paulo Roberto DeOliveira Da Costa等人（2020）提出了计算注意力对齐分数的全局Luong连接方法，用于C-MAPSS数据集的RUL预测。在Zhang等人（2017）中引入了一种注意力CNN-LSTM架构，其中CNN用于原始输入特征提取，然后输入到堆叠的LSTM网络中。所有时间步的LSTM输出都是有注意的S.R.B. Shah，G.S.Chadha，A.Schwung等人智能系统与应用103不不不不Ⓢ通过一个attention层将其映射到最后一个隐藏状态，最终生成一个旋转机器的RUL。Kong等人（2019）提出了一种混合CNN-LSTM RUL预测器，其中对原始传感器数据进行预处理以生成1D健康指标矩阵。Peng等人（2021）从CNN和LSTM网络中提取空间和时间特征，这些特征被融合并传递到另一个CNN层，以预测C-MAPSS子数据集FD 001和FD 003的RUL。Li等人（2019 b）提出了另一种并行CNN和LSTM路径的混合网络，以减少CNN提取的特征对串联LSTM的影响。然而，该模型添加了LSTM网络，该网络处理先前的CNN和LSTM路径用于C-MAPSS RUL预测的编码器-解码器模型在Liu等人（2019）和Liu等人（2021）的两项独立工作中提出。在Liu等人（2019）提出的模型中，编码器由堆叠的双向LSTM层组成，随后是具有中间池化的多个CNN，并且解码器简单地是三个FC层的网络。Liu等人（2021）提出的架构利用自注意机制进行特征提取。特征参与的输出被馈送到双向GRU-CNN编码器，然后是具有增强和FC层的解码器与现有方法相比，本研究提出了一种序列到序列（Seq2Seq）RUL估计模型，其中预测的不是RUL的点估计，而是序列估计。此外，这项工作比较了不同的注意力方法和编码器模型的RUL估计任务，这是在文献中缺失。还必须注意的是，大多数性能良好的架构通常需要大量的可学习参数，这使得它们的应用程序难以用于小的RUL数据集。因此，我们也提供了一个透彻的比较，我们提出的模型和文献中提供的模型3. 递归神经网络架构我们认为长短期记忆网络是处理序列数据的骨干网络架构，CNN是输入编码的骨干网络架构。特别是，我们采用双向LSTM，首先是因为它们通常提供更好的性能评分，其次是因为它们允许改变对序列预测任务的看法，如Gavneet SinghChadha等人（2020）所讨论的。请注意，可以类似地使用其他双向门控RNN，如GRU。3.1. 长短期记忆最初，LSTM是在Hochreiter和Schmidhuber（1997）中提出的。近年来，LSTM在语音识别和机器翻译等领域取得了巨大的成功。与经典RNN类似，通过堆叠LSTM层来获得完整的网络。然而，神经单元的结构变化很大。LSTM的示意图如图1所示。可以看出，LSTM包括三个门，即输入i、遗忘f和输出门0，单元状态c和σ、γ和σ。Fig. 1. LSTM cell的结构。ct=Ctit+ct−1ft，（4）ot=σ（Wo xt+Ro ht−1+bo），（5）ht=（ht）ot，（6）其中，xt、ht−1和ct−1分别是新输入、先前隐藏和先前单元状态。输入门i t从方程。(1)确定在创建新单元状态时应添加或删除多少新输入信息。因此，来自Eq. (2)决定来自先前状态的多少内存应该被保留或遗忘。由方程式(3)新的蜂窝基站，是gennerated. 结果是-wisemultiplicationbettweenit，Ct和，ft，ct−1a readd ed以生成新的单元状态c t由方程式 (4). 输出门，或输入当量(5)确定有多少新信息应该用作瞬时LSTM单元输出。新的隐藏状态，h t通过将先前的隐藏状态ht-1传递到双曲正切激活，然后与新生成的输出ot执行逐点乘法，如图所示，当量（6）. 权矩阵Wc，Wi，Wf，Wo∈RH×I，Rc， Ri，Rf，Ro∈RH×H和向量bc，bi，bf，bo∈RH是输入的，递归的，偏置权重，其中H 表示所述隐藏空间 LSTM块的维数，I是输入向量的维数。初始状态由h0∈RH和c0∈RH给出.是逐点激活函数。在 vanilla LSTM 中， logistic sigmoid 函数σ（x）=1/ 1+e−x用于门激活，而双曲正切γ（x）=tanh（x）用作候选细胞状态和新的隐藏状态激活。前向传递中的LSTM层的向量方程可以写为it=σ（Wixt+Riht−1+bi），（1）ft=σ（Wfxt+Rfht−1+bf），（2）与经典的RNN相比，附加的存储器单元ct是在LSTM框架中引入。此外，门是incor- porated来控制从输入，以前的时间步长和状态的信息流，允许存储单元，以保持其完整的informa-灰，甚至在许多时间步长。因此，LSTM可以在很长一段时间内删除或添加信息。3.2.双向LSTM双向LSTM（BiLSTM）结构使用两个独立的LSTM网络，其中第一个网络计算第二个网络中的数据。通常对于wardsequentialorrder，−→ht，S.R.B. Shah，G.S.Chadha，A.Schwung等人智能系统与应用104Ct=γ（Wcxt+Rcht−1+b c），（3） revereor rde r，←h−tGravesandS chmidhu b er（2 0 05）. 有一段时间，S.R.B. Shah，G.S.Chadha，A.Schwung等人智能系统与应用105怨恨我们使用类似于Li et al.（2018）的CNN-2D架构来提取图3所示的每个空间维度上的时间特征，作为LSTM上游的输入编码。特征图Nft是指存在于某个数据中的通道的数量。当我们考虑时间序列数据时，输入通道的数量等于1。在每个2D卷积层之后，从输入中提取的信号由相应的滤波器通过非线性激活函数映射到多个通道中。在图3中，输入是具有时间步长的3D数据，Ntw=t1，t2，. t T，fea-tures，Nft=f1，f2，.，fF，并且，通道大小为1。CNN-2D从该输入中提取的信息（1）图2. 双向LSTM的结构。N（1）×N×NTW层被映射为形状为Z1∈Rfmft的输出，其中来自每个前向和后向单元的输出被级联以产生单个输出Yt。双向LSTM网络如图2所示。正向和反向LSTM网络都是用相同的隐藏和单元状态启动的。在任何时间步t，BiLSTM单元中涉及的方程是Yu et al.（2015），yt=W−−→hy·−→ht+W<$−h−y·<$h−t+by（7）当re、W−−→和W<$−−表示前一个和后一个隐藏的值时，N fm（1）特征图Li et al.（2018）; Wu（2017）. 编号为通过使用填充来保持时间步长Ntw和特征数量Nft。过滤器或内核在输入数据上移动并将信息提取到输出特征图中。在CNN-2D架构中，内核的形状是2维的（KL×KW），它们在时间和特征维度上移动，而CNN-1D内核随着时间的推移而移动。KL和KW是核的高度和宽度。卷积层中涉及的内核数量也取决于希希放置权重和by表示输出偏置。通过提供输入数据的反向副本，各个LSTM单元可以从未来的信息中学习上下文。因此，与单向LSTM只处理过去信息的能力相比，网络在任何时候都可以处理过去和未来的信息此外，BiLSTM在计算上是便宜的，因为它们使用传统的BPTT训练方法，如LSTM网络Graves和Schmidhuber（2005）;Lipton等人（2015）。这项工作利用了所有设计的LSTM网络中的双向特性。3.3.共享核卷积2D神经网络卷积2D神经网络（CNN-2D）在3D输入数据上应用二维移动滤波器，通过捕获数据的空间和时间表示来创建输出特征图号线的特征图。对于Nfm=2，将存在两个ker-相同大小的nels，提取输入信息以映射到它们各自的特征图中。这在图3中示出。这些内核包含可训练的权重，它们有助于根据与输入样本相比的大小提取局部或全局信息。这项工作中使用的共享内核（SK）2D-CNN架构要求内核从每个传感器数据中单独提取时间信息，并最终基于所有传感器的信息创建特征图。这是通过设置内核每个核每次仅跨越一个特征维度。这种结构如图3所示，其中输入数据上的内核用红色和蓝色标记。对于大小为（KL×1）的核，从第i个时间步开始，对于输入序列x=x1，x2，.，.，XT对于特征，f=0，1，.，F，从时间维度沿着单个特征学习的特征表示，图三. 共享核卷积2D神经网络。S.R.B. Shah，G.S.Chadha，A.Schwung等人智能系统与应用106L×N在N×KL×KW出来见图4。 LSTM ED序列RUL预测器。单输出特征图由Gu等人给出。（2018年），Zif=[WT·xi：i+K−1+b]f（8）其中，W是从输入到输出fea的核权重出来其中，W∈Rfm fm，b为偏差，b∈ED）结构。可变输入输出长度的序列映射能力，即， T i/=T o在图1所示的模型中被利用。第四章编码器是一个BiLSTM网络，其中初始隐藏状态和单元状态用零初始化在处理输入信息后，信息在重新计算方法中，最终隐藏状态，−h→和<$h−T TN出来. 在具有一个输入通道的SK 2D-CNN的情况下，RNfm×1×KL×1。对于n = 0，1，. N个输出特征图，最后一个我是说，s0. 在任何方向，hT ∈RL×de 其中L表示数字卷积输出由下式给出，C0：N=[Z0，Z1，Z2，.，Z[F] 0：N（9）堆叠的LSTM层（在我们的情况下L=1），de表示编码器隐藏维度因此，组合的潜在表征1×2De出来我我我是s0 ∈R. 复杂的退化模式信息，的卷积输出是被忽视的和通过通过具有权重矩阵的全连接（FC）层，W_atten∈R（N fm·Ntw·Nft）×（Ntw·Nf t），其不用于组合所有的外部信息-在所有的特征地图上。FC输出然后被重新整形以创建原始输入大小的向量，即，RNtw×Nft.4. 基于序列到序列神经网络的RUL估计在本节中，我们提出了用于RUL估计的新型序列到序列神经网络架构。为此，我们首先概述了所提出的架构，然后详细解释了各个组件4.1. 序列到序列架构图4示出了新提出的基于序列到序列预测的神经网络的架构。作为其核心，我们提出了一个编码器-解码器结构，其中双向LSTM表示编码器。同时，解码器由单向LSTM和全连接层组成，以形成预测RUL估计值序列的网络输出。此外，我们建议使用的注意力机制，增强了网络与相关权重之间的信息对每个解码器的时间步长和编码器的整个隐藏状态表示。我们实验了两种类型的编码器-解码器注意力机制，即Dzmitry Bahdanau etal.（2015）和Luonget al.（2015）。可选地，我们进一步添加由共享内核CNN提供的输入编码，如第3.3节所述。在下文中，我们将详细讨论该架构的组件。4.2.编码器-解码器序列间预测器作为我们提出的序列到序列RUL预测器的核心架构，我们采用了基于LSTM的编码器-解码器（LSTM输入序列被编码在该潜在表示中，被解码并映射到相应的RUL点。因此，解码器中第一个LSTM单元的隐藏状态由这个编码的潜在表示初始化。第一个解码器LSTM单元的输入是一个零张量，用作序列的开始token.来自每个解码器LSTM单元的输出通过具有权重W∈Rdd×1的FC层，其中dd是解码器隐藏维度，1是RUL维度。输出是该解码器时间步长中的预测RUL，并且它作为输入传递到下一个解码器LSTM单元。该递归操作继续，直到生成来自所有预定义数量的解码器LSTM单元T0的输出。FC权重和偏置在所有解码器LSTM时间步中共享。4.3.共享CNN编码器-解码器序列到序列预测器作为多元时间序列输入的输入数据结果在潜在的高维编码器隐藏维度中，我们可选地使用由具有共享内核（SKC）的CNN-2D架构提供的附加输入嵌入来增强编码器BiLSTM，如在第3.3节中介绍的。该组合模型在本工作中被称为共享核卷积LSTM编码器-解码器（SKC LSTM ED）序列RUL预测器，并且在图1中示出。 5.CNN层可能会从原始输入中提取复杂的特征，然后将其馈送到BiLSTM编码器。SKC层内核的长度为，单位宽度，KW=1。号的特征图是Nfm。应用非线性Leaky ReLU激活在CNN层之后。沿着每个特征图的时间边缘应用适当长度的零填充，以防止滑动内核中的信息丢失。CNN层然后，将张量通过FC本文研究了一种新的线性规划方法，其中W∈R （ Nft m·Ntw ·Nft ） ×（Ntw·Nft），其中，R调频从两个方向连接起来，形成一个潜在的代表-S.R.B. Shah，G.S.Chadha，A.Schwung等人智能系统与应用107是第位时间步长和不。分别在不同的功能，S.R.B. Shah，G.S.Chadha，A.Schwung等人智能系统与应用108K.IJex+−xeX−x图5. SKC LSTM ED序列RUL预测器。放特征图。然后将输出重新整形为与输入特征图形状相同的形式。这样做是为了使双向LSTM编码器能够对与原始输入张量中相同数量的输入时间步和特征执行递归操作。4.4.神经网络哪里exSoftmax（xi）=ex jj=13. 上下文向量，Cij（十二）深度神经网络中的注意力机制是指如前所述，普通RNN或LSTM结构使用输入数据然而，仍然存在在特定时间步处生成的输出与用于生成该输出的输入序列之间的相关性的问题尽管LSTM减少了很长序列的梯度消失和爆炸的影响，但它并没有完全消除它们此外，NN架构（如RNN、LSTM或CNN）可能无法处理高度复杂的特征表示以生成准确的输出。注意力机制通过发现它需要生成的输出数据与编码器的隐藏状态表示之间的相关性来解决这个问题。注意力结构从编码器隐藏状态创建上下文向量然后，它允许解码器使用上下文向量来生成更精确和相关的输出Chaudhari et al.（2019a ） ;DzmitryBahdanauetal. （ 2015 ） ;Luongetal.（2015）;Swati Meshram（2019）。因此，注意力结构只是对现有编码器-解码器网络的一种补充。不同类型的注意力方法及其在这项工作中的使用将在以下章节中详细介绍。4.4.1.Bahdanau注意DzmitryBahdanau等人（2015）提出的注意力模型基于i=1，2，. T编码器时间步长如下：1. 对齐评分，SijSij=Walign·tanh·[（Wh·h<$i）;（Ws·sj−1）]（10）其中Wh∈Rde×dd和Ws∈Rdd×dd分别是所有编码器隐藏状态h′i和相应的先前解码器隐藏状态sj-1的权重矩阵，tanh为双曲正切函数tanh（x）=e−e2. 注意重量，WijWij=Softmax（Sij）（11）Cij=W T·h<$i（13）4.注意组合，I解码器，j-1该步骤执行具有权重矩阵的加权级联，W应用于上下文向量Cij和前一时间步的解码器输出y <$j−1之间的∈ R（d d + d RUL）× d d。Idecoder，j−1=Wapplied·[Cij;y< $j−1]（14）最后，yj=LSTM（（Idecoder，j−1），sj−1）（15）其中LSTM是模型中的解码器可以从Eq. (10)-（15），Bahdanauatten-tion模型计算所有编码器隐藏状态的相关性，h′i W. R. t_p_v的解码器隐藏状态，s_j-1 以决定用于当前解码器时间步长的输入I解码器j-1。输入在该时间步长处通过解码器LSTM单元以生成输出，此外，该方法采用了加权相加比对技术Dzmitry Bahdanau et al.（2015）。这些是这种注意力技术与Luong注意力模型之间的主要区别，Luong注意力模型将在下一节中详细介绍4.4.2.隆注意Luong注意力模型部署了一种类似于Bahdanau注意力的方法，该方法考虑所有编码器隐藏状态来计算上下文向量和注意力权重Luong et al.（2015）也称为全局注意力方法。然而，该模型还建议使用更局部化的方法，其中通过关注编码器隐藏状态的窗口段来计算上下文和注意力权重。这种关注被称为局部注意力或基于窗口的注意力，因为该机制根据从当前解码器时间步长接收到的位置令牌P1，在编码器状态上部署特定长度的窗口。窗口长度及其中心的选择可以通过两种方式进行。（2015年）：我S.R.B. Shah，G.S.Chadha，A.Schwung等人智能系统与应用109⎩¯IJ我我见图6。带Bahdanau注意力的LSTM ED序列RUL预测器。• 单调对齐：选择固定的窗口长度，其中中心点pi取决于当前定义。并且候选解码器从当前时间步输出y<$j生成最终的参与输出，y<$j。编码器位置。窗口随着进度移动每个解码器的时间步长到下一个对于编码器，时间步长和具有j个时间步长的解码器，窗口长度，y=Waplied·[Cij;y<$j]（21）在这项工作中，局部注意力模型中的L窗口被计算为，L窗口=i−j+1（16）• 预测对齐：该方法通过应用以pt为中心的高斯分布来预测对齐窗口。在这项工作中没有应用预测对齐无论全局或局部注意力，Luong注意力模型也遵循前面提到的四个步骤，但方式不同。为了简单起见，步骤如下所示，涉及全局注意力Luong等人。（2015年）。1. Luong attention模型中的比对得分Sij⎧⎨h¯i·sj,Dot从Eq可以看出。（17）-（21），Luong注意力模型计算所有编码器隐藏状态的相对值，h？iw。R. t当前解码器隐藏状态s j和候选输出y <$j，以决定当前解码器时间步长的输出y<$j。该方法还提供了部署乘法、加权乘法和加权加法比对计算的灵活性Luong et al.（2015）。将解码器表示与编码器隐藏状态的加窗段对齐的可能性降低了计算成本，并且更多地关注相关输入信息。全局和局部注意力技术，以及不同的对齐公式，已被用于开发编码器-解码器架构在这项工作中，他们的性能将在实验部分进行比较。4.5.注意力增强的编码器-解码器预测器如前所述，注意力机制生成关于每个解码器时间的信息之间的相关权重。Sij=Wh（h<$i）·sj，将军tanh（W align. [hi; sj]），连接（十七）步骤和编码器因此，它允许更加强调有益的输入信息，即降级信息，用于对应的RUL预测Where，Wh ∈Rde×dd，h<$i 是互补编码器隐藏状态，并且是当前解码器隐藏状态。1. 注意重量，WijWij= Softmax（ Sij）（18）2. 上下文向量，CijCij=W T·h<$i（19）提高了预测性能。我们使用Dzmitry Bahdanau et al.（2015）和Luong et al.（2015）提出的两种编码器-解码器注意力机制来测试所提出的模型。在这两种架构中，编码器保持所述BiL-STM网络，隐藏状态和单元状态的初始化为零。最后的隐藏状态被连接，然后用于初始化解码器隐藏状态。下面解释了具有attention的LSTM ED架构4.5.2.使用Bahdanau注意力的建议的LSTM ED RUL预测器与Bahdanau注意1. 注意组合，日首先，当前的解码器LSTM如图6所示。Bahdanau注意力阻滞时间步长，Dj基于先前的解码器输出y<$j-1和隐藏状态sj-1生成候选输出y<$j。根据第4.4.1节实施。在任何解码器时间步长sj-1，在整个编码器hid-1之间创建对准分数y'j =LSTM（y）j−1，sj−1）（20）den表示，h<$RTi×2de和瞬时解码器hid-den态sj-1∈R1×dd. 此分数是softmaxed和元素方面的在softmaxed score和h′之间执行乘法，然后，应用具有权重矩阵W的加权级联，在上下文向量Cij之间执行∈R（de+dd）×dRULS.R.B. Shah，G.S.Chadha，A.Schwung等人智能系统与应用1010生成上下文向量。上下文向量和瞬时解码器输出yj-1之间的加权加法创建了S.R.B. Shah，G.S.Chadha，A.Schwung等人智能系统与应用1011我我图第七章 LSTM ED Sequence RUL Predictor with Luong Attention下一个解码器单元的输入Sj。Bahdanau attention被用来创建LSTM操作的attended input。因此，每个解码器时间步输出是其相应的预测RUL，以及要传递到注意块以生成下一个时间步输入的可能性。因此，对于每个循环的解码器时间步，注意机制使用来自先前步骤的预测的RUL和隐藏状态来生成用于该解码器单元的被注意的输入，直到到达序列的末尾。来自所有解码器时间步的集体输出表示预测序列RUL。4.5.3.使用Luong Attention的所提出的具有Luong注意力的LSTM ED RUL预测器如图7所示。根据第4.4.2节实施Luong Attention机制。在任何解码器时间步长sj-1，在整个编码器隐藏表示之间创建对齐分数。作为用于处理子时间步长输出的输入。TF是NLP应用程序中常用的特征，并在RNN Williams和Zipser（1989）中用于递归学习。严重依赖于先前解码输出的NN模型通常会由于在初始训练阶段处理错误的预测而收敛缓慢。通过输入真实标签而不是预测结果，可以避免更长时间内的误差累积。除了递归模型之外，TF还可以用于自回归模型，例如，Transformer，因为它也基于编码器-解码器结构的原理进行操作。然而，Bengio et al.（2015）; Goyal et al.（2016）的研究表明，模型在推理过程中存在“暴露偏差”，由于模型高度依赖于暴露的地面真实标签，因此无法提供准确和稳定的预测。当模型远离它自己的模型时h′∈RTi×2de和瞬时解码器隐藏状态sj-1∈预测输出，训练和推理之间的差异R1×dd.该分数被softmax化，并且在softmax化的分数和h'之间执行逐元素乘法以生成一个con-max。文本矢量。解码器单元sj-1创建候选输出，并且候选输出和上下文向量之间的加权加法生成最终预测的RUL，y∈j-1。这个预测的RUL，y<$j-1也用作下一个解码器时间步长sj的输入。因此，对于由解码器时间步长生成的每个候选输出，Lu-ong注意块通过关注关于候选输出的编码器隐藏表示来创建最终预测输出和下一时间步长输入。Luong注意机制还可以通过执行局部注意来注意编码器隐藏状态的局部片段而不是全局隐藏状态。在本地注意力模式下，一个po-从解码器隐藏状态发送到注意块，基于该注意块，使用单调对齐（第4.4.2节）。该窗口“翻转”编码器隐藏状态与每个解码器的时间步长的进展，直到序列的末尾到达。从解码器的递归操作收集的RUL4.6.教师强迫在处理序列到序列预测的编码器-解码器模型中，教师强制（TF）是一种用于训练的技术，它从先前的时间步中提供基础事实标签增大这可以通过设置无TF运行比来避免其中模型将在某个时间段内用右移的基本事实标签来训练，而在其余时间内用其来自先前时间步的预测来训练。1. 滑动窗口方法和序列目标RUL生成在这项工作中训练序列到序列模型需要以子序列的批次馈送输入数据。这些子序列优化了模型这种子序列创建是通过使用滑动窗口实现的，其中特定长度的窗口随时间推移在输入信号上移动，捕获特定时刻的信息并将其馈送到模型进行预测对应的RUL。窗口的步长在本工作中称为步幅。此外，这项工作的新颖之处在于RUL输出的生成顺序，而不是单个数据点。这是基于一个假设提出的，即模型可以更好地表示一个引擎的健康状态在一个序列的RUL标签。在特定输入时间窗口发生的突然降级或波动可以更容易地映射到一系列RUL，而不是将学习信息平均到一个单元中。通过使用分段线性函数创建的RUL标签被展开到特定大小以实现这一点。此大小取决于S.R.B. Shah，G.S.Chadha，A.Schwung等人智能系统与应用1012图8. 用于V=5的序列RUL生成的未折叠靶标记。图第九章滑动窗口操作和相应的序列目标RUL。目标滑动窗口的长度，v.两个目标RUL标签之间的空间填充有v-1个等距间隔点。因此，从长度为to的初始循环到长度为to的最终循环的输出RUL序列被展开为长度为To=to×v的序列。图中示出了一个示例。 8，v = 5。图9中示出了滑动窗口操作和对应的序列目标RUL的图示。考虑传感器输入数据，I∈RTi，以及对应的展开RUL标签O∈RTo，长度Ti 分别为。 u和v是滑动窗口输入和目标输出的长度如果Ti/=To，则u/=v。让，各个窗口在输入和输出数据上滑动的最大次数是N。输入滑动窗口总是遵循恒定步长1，而输出窗口步长等于输出窗口的长度，即，v.执行此操作以确保馈送到模型的输入序列包含连续且非中断的时间信息流。因此，输入窗口的边缘每次滑动一个周期。为了将其准确地映射到输出RUL序列，输出窗口中的最后一个点必须包含与窗口化输入数据相对应的整数RUL值，并且其在该RUL窗口中的先前值是等距间隔点。2. 数据集和评估在下文中，我们将讨论针对RUL估计框架所获得的结果。我们首先介绍所考虑的数据集，然后显示结果并比较现有的最新技术水平。2.1. C-MAPSS数据集商用模块化航空推进系统仿真（C-MAPSS）是由NASA编制的基于模型的仿真程序。该程序提供了用于飞机推进的大型商用涡轮风扇发动机的模拟。（ 2007年）。表1C-MAPSS数据集传感器参数Saxena等. （2008年10月6日）-2008年10月9日）。传感器参数单元S1风机入口EURRS2LPC出口EURRS3HPC出口EURRS4LPT出口EURRS5风机入口PSIAS6旁路管道总压PS

下载后可阅读完整内容，剩余1页未读，立即下载