基于图神经网络的多变量资源使用预测：多人移动游戏案例研究

173 浏览量更新于2024-01-02 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

International Journal of Information Management Data Insights 3（2023）100158用于表示多变量资源使用的图神经网络：多人移动游戏案例研究☆Theodoros Theodoropoulosa， Antonios Makrisa，Ioannis Kontopoulosa，John Violosa，Przemyszaw Tarkowskib，ZbyszekLedwob，Patrizio Dazzic，Konstantinos TserpesaaHarokopio University of Athens，Omirou 9，Athens 17778，Greece地址：Aleje Jerozolimskie 96，Warsaw 00807，Poland地址：Largo Bruno Pontecorvo 3，Pisa 56127，ItalyaRT i cL e i nf o保留字：图神经网络资源使用预测深度学习移动游戏a b sTR a cT多人移动游戏（MMG）应用的出现与过多的服务质量和体验质量要求交织在一起。资源使用预测可以以资源扩展、服务迁移、任务加载和调度中的几种主动功能的形式提供对相应的编排和管理过程的有价值的见解。这些过程在MMG应用程序利用的云和边缘环境中至关重要。因此，产生关于这些类型的应用程序的准确的资源使用预测是至关重要的。为此，我们提出了一种基于图神经网络（GNNs）的资源使用表示范式。这种方法的新颖之处在于利用存在于各种类型的计算资源之间的依赖性。此外，我们扩展了这种表示方法，以开发基于GNN的编码器-解码器模型，该模型可以满足资源使用的复杂性，并可以提供多步资源使用预测。将该模型与许多成熟的编码器-解码器和深度学习预测模型进行比较，以评估其效率。最后，所提出的模型被纳入一个积极主动的水平自动缩放解决方案，该解决方案在大规模仿真的背景下，在各种性能指标方面，能够超越标准的反应式水平自动缩放方法，同时将所需的计算资源量保持在最小值。这项工作的发现展示了开发新方法的重要性，以代表资源使用情况以及可能从此类科学努力中获得的1. 介绍期间的最后几十年来，我们有目睹的出现在XR应用领域，这些要求非常严格。相应的科学文献表明，要获得可接受的最终用户体验，端到端延迟应小于15 ms，在EX体验质量方面要求相当高的应用带宽应该能够扩展到30 Gbps（嘘声，楚，&(QoE)和服务质量（QoS）要求。技术范例，诸如多人移动游戏和E Xtended Reality（XR）应用（Makris等人，2021 a）与各种QoS相关联（Theodoropoulos等人，2022a）和QoE要求。这两种类型的应用程序通常在其透视需求和实际架构设计方面交织在一起（Taleb等人，2022年）。这两种类型的应用程序的支柱是向最终用户提供沉浸式体验的能力。提供可接受的沉浸水平需要低延迟和高带宽。特别是在Cuervo，2016）。此外，任务处理中不可避免地出现故障可能会对沉浸式体验的实施造成严重影响，因为它们通常会导致服务交付中断，从而危及所需的沉浸感。因此，这些类型的应用程序需要能够表现出容错特性。最后，这两种类型的应用程序对计算资源的要求都非常高，因为它们与渲染复杂的3D模型，高度定义的图形和各种高级资产相关。Tra-☆该项目已获得欧盟地平线2020研究和创新计划的资助∗ 通讯作者。电子邮件地址：ttheod@hua.gr（T.Theodoropoulos），amakris@hua.gr（A.Makris），kontopoulos@hua.gr（I.Kontopoulos），violos@hua.gr（J. Violos），ptarkowski@orbitalknight.com（P.Tarkowski），zledwon@orbitalknight.com（Z. Ledwoeti），patrizio. unipi.it（P. Dazzi），tserpes@hua.gr（K. Tserpes）。https://doi.org/10.1016/j.jjimei.2023.100158接收日期：2022年6月29日;接收日期：2023年1月25日;接受日期：2023年1月25日2667-0968/© 2023作者。由Elsevier Ltd.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表国际信息管理数据见解期刊主页：www.elsevier.com/locate/jjimeiT. Theodoropoulos，A.马克里斯岛Kontopoulos等人International Journal of Information Management Data Insights 3（2023）1001582单块开发方法需要将基本的计算资源存储到最终用户设备中，从而使其昂贵且庞大。在多人移动游戏的情况下，这种挫折与移动游戏的核心原则形成了鲜明对比。这些原则要求在硬件上运行的移动游戏应用程序是移动的并且相对便宜。云计算环境提供了计算资源，应用可以使用这些计算资源来通过互联网服务于用户的需求。云计算的基石是基于共享计算资源的使用，这些资源可能分布在多个位置。通过使最终用户能够远程访问必要的计算资源，计算充分性的负担被转移到这些远程资源，从而允许最终用户设备与移动游戏的主要概念保持一致。不幸的是，云基础设施本身无法完全支持与低延迟和高带宽要求相关的沉浸式应用程序。主要原因是终端设备通常远离云服务器，从而增加了处理和网络开销，导致高延迟，低带宽和整体性能下降。将云的优势与边缘设备上的服务分散处理相结合的概念方法被称为边缘计算。边缘计算近年来吸引了工业界和学术界的广泛关注（Hao，Novak，Yi，&Li，2017; Hu，Patel，Sabella，Sprecher，&Young ， 2015;Makris ， Psomakelis ， Theodor-opoulos ，&Tserpes，2022; Patel等人，Satyanarayanan，2017）。它被认为是解决下一代应用日益严格的要求的关键推动者（Sabella等人，2019年）。一般来说，边缘计算旨在建立分散的拓扑结构，并允许将各种计算和存储资源重新定位这样做有望提供具有更好响应时间、传输速率以及更高可伸缩性和可用性的服务交付和内容此外，边缘计算显著减少了传输到远程云的数据量，在数据源附近启用数据处理。最终，扩大更延迟敏感和高带宽应用的可能性，这些应用单独使用云和远距离处理是不可行的（Makris等人，2021 b）。在沉浸式应用程序的背景下，边缘计算使处理能够在更靠近最终用户设备的地方进行。通过这样做，整体端到端延迟显著降低。边缘计算的这一固有特性至关重要因为它们都提出了对低端到端延迟的需求。端到端延迟是任务到达指定计算节点时处理所需的时间。因此，边缘计算架构需要足够的计算资源来在QoS要求指定的可接受时间内处理任务。如果没有分配足够的计算资源，则预计会发生任务执行中的开销。资源分配过程与资源分配密切相关。使用度量，例如CPU、存储器和在整个网络上发送或接收的对应于所分配的处理节点的字节数。资源使用度量可以用作一组处理节点是否足以处理下一个时间步帧中的传入任务或编排工具是否应该分配额外的计算资源的指标（Roy，Dubey，&Gokhale，2011）。缩减是相反的过程，并且是指冗余处理节点的解除分配，以便减少能量消耗和货币费用。自动扩展是一个自动化过程，包括根据传入的工作负载和预定义的QoS要求执行的扩展和缩减操作。自动缩放可以反应性地发生，这意味着在QoS度量降级之后，编排工具可以请求进行放大动作，或者主动地发生，以便首先防止QoS降级发生。尽管Pod Autoscaler（Vohra，2017）。这种方法是在Kubernetes1的上下文中引入的，其中pod指的是Kubernetes中最小、最基本的可部署对象，代表分布式基础设施中正在运行的进程的单个实例。尽管生产中已经有大量的自动扩展解决方案，例如Kubernetes，但不幸的是，它们并没有包含所需的复杂性，以体现边缘云环境中至关重要的所需属性。应该在瓶颈出现之前及时实施扩展操作，同时最大限度地减少部署和启动延迟。这促使我们提出一种机制，能够建立准确的资源使用预测，可以纳入主动自动扩展解决方案。处理节点的资源使用度量表现出时间序列格式，并且大多数情况下是非线性行为，因此使用递归神经网络（RNN）似乎是一个理想的选择。监控和预测边缘节点的容量在以主动方式实现上述决策过程中，在资源使用方面正在操作的企业可以是一条有价值的信息。根据历史数据的时间序列特征得出的资源使用预测是信息的重要来源。这样的预测是关于可用计算节点的充足性的强指示器，无论是在考虑额外工作负载将到达的场景时，还是作为预测可能在不久的将来发生的潜在QoS降级的方式。公共可用的监控工具，如Prometheus2，可以以流格式提供资源度量。可以利用这些时间序列流来生成适合于预测模型训练过程的数据集。当涉及周期性现象时，时间序列预测已被证明是一种非常强大的工具（Ensa fi，Amin，Zhang，&Shah，2022 a）。云固有的动态特性&边缘基础设施源于应用程序请求和相关工作负载的波动。每个时间间隔的请求数量在不同的时间帧上变化，并且受到许多周期现象的影响。因此，资源使用呈现出高度的序列和互相关值，使得时间序列方法的使用非常有效（Nisar Ahmed，2020）。循环神经网络（ RNN ）（ Shiva Prakash ， Sanjeev ， Prakash ，Mrasekaran ， 2019 ）通过门控循环单元（ GRU ）（ Shen ， Tan ，Zhang，Zeng，Xu，2018）和长短期记忆（LSTM）利用时间序列特征，可用于准确预测各种资源使用指标。典型的时间序列模型和简单的RNN主要用于制定一步预测。多步预测方法由对应于连续时间步的值序列组成。在时间序列的上下文中对资源使用建模的多步预测是重要的，因为与单步预测方法相比，它可以被利用来实现资源编排和管理的增强粒度。当利用多步洞察时，资源编排和管理实体可以实施更复杂的实时策略（Theodoropoulos，Makris，Violos，Tserpes，2022 b）因为每个虚拟设备和服务功能具有不同的部署，时间到了。编码器-解码器架构范例可用于促进多步时间序列预测。编码器-解码器结构是深度学习（DL）架构，由两个神经网络通过中间表示进行交互并产生序列到序列的预测。编码器-解码器拓扑在超越其他预测模型方面表现出了巨大的潜力，因此，本文的作者选择将本文的重要部分献给它们。编码器-解码器拓扑的编码器部分接收可变长度序列作为输入，并将其转换为具有他们的许多好处，一个显着的缺点主动自动伸缩解决方案的缺点在于它们往往导致计算资源的过度供应。一个完善的启发式方法是水平1https://kubernetes.io/2https://prometheus.io/T. Theodoropoulos，A.马克里斯岛Kontopoulos等人International Journal of Information Management Data Insights 3（2023）1001583固定的形状，然后可以由解码器部分利用，以便制定所需的预测。然而，在资源使用预测的上下文中已经使用到这一点的编码器是否能够最佳地封装资源使用的底层复杂性是值得怀疑的。事实上，作者试图在本文中解决的主要研究问题如下：• 使用可以封装资源使用度量之间存在的依赖关系的编码器拓扑结构是否有助于在资源使用预测领域建立更准确的预测模型• 将后续预测模型纳入主动自动扩展操作管道中，是否可以在多个性能指标上显著提高底层云边缘基础设施的效率？上述事实是提出利用图神经网络（GNN）的高级资源使用表示范式的动机。根据该范例，每个被监视的资源使用度量被表示为图卷积网络的节点。这种新的表示方法，然后通过将其合并到一个资源使用预测模型的基础上的编码器-解码器的范式，它可以产生准确的多步预测扩展。这种编码器-解码器模型在本文的上下文中称为GCN-LSTM。与其他方法相比，所提出的方法的主要优点是图形表示允许我们利用输入变量之间的相互依赖性。当前的主动自动缩放机制采用预测模型，该模型基于其过去行为的已识别趋势来预测多个指标的工作负载。另一方面，所提出的方法可以exploit不仅过去的趋势，但可能存在的度量和它们各自的趋势之间的可能的依赖关系。实现这一点通过与它们的邻居交换信息来迭代地更新图形节点表示。通过开发更准确的预测模型，本工作的作者希望引入更复杂和完善的主动自动缩放解决方案，可以大大提高当代类型的应用程序（如多人移动游戏）的性能，同时将所需的计算资源量保持在最低限度。考虑到这种类型的应用程序相对较新的出现，这些应用程序与大量相当苛刻的QoS要求交织在一起，因此促进它们的需求变得非常重要。因此，本工作的成果预期将引起广泛关注。这些参与方包括云提供商、应用程序所有者和深度学习研究人员等实体。通过准确的资源使用预测，云提供商能够跟上QoS要求，这些要求通常以服务水平协议的形式陈述，服务水平协议是他们与应用程序所有者之间建立的法律合同。此外，资源使用预测可以使应用所有者能够向最终用户提供更精细的体验。最后，探索深度学习方法及其在云边缘计算设备上的潜在应用的科学社区有望获得上述方面话题为此，我们的研究的四个主要贡献是：• 使用图神经网络来表示资源使用情况。此外，我们扩展了这种表示范式，并提出使用基于GNN的编码器-解码器模型来预测资源使用情况。据我们所知，我们是第一个尝试这两种方法的人。• 在与过多的相当苛刻的QoS和QoE要求相关联的当代应用的上下文中分析资源使用预测的复杂性。• 各种最先进的编码器-解码器拓扑结构的分析• 将GCN-LSTM模型与其他成熟的预测模型进行比较的实验评估。• 将利用上述提出的解决方案的主动缩放方法与被动缩放方法进行比较的实验评估。论文的其余部分结构如下：第2部分重点介绍了资源使用预测，时间序列和DL方法的相关工作。第3节分析了不同的基本和编码器-解码器DL预测模型。第4节分析了图神经网络、图卷积、GCN-LSTM模型和提出的问题公式。第5节分析了多人移动游戏的案例。第6节描述了实验过程下采取的，以评估所提出的方法的效率。最后，第7节对本文进行了总结，报告了当前的局限性，并提出了未来的发展方向。2. 相关工作多年来，机器/深度学习已成功应用于各种应用。Tameswar，Suddul，&Dookhitram（2022）提出了一种混合深度神经网络模型，该模型将自然启发算法与DNN相结合，以增强对软件错误的预测。在Sridevi Suganthi（2022）中，开发了一种基于人工智能的系统来测量和预测可用工作的合适候选人。Parviero等人（2022）提出了一种新的基于数据驱动的代理模型，其参数可以通过最大似然估计，用于预测市场上新产品或服务的结果。另一项研究（Walid，Ahmed，Zeyad，Galib，Nesa，2022）研究了使用不同机器学习策略的本科申请者失败的原因。这些模型能够提前提供“风险”警告，以便为大学本科入学考试的申请者提供建议。 Chondrodima，Georgiou，Pelekis，Theodorovich（2022）介绍了一种基于数据驱动的新方法，基于径向基函数神经网络的公交出行预测。Al-Sulaiman（2022）开发了一个前馈深度神经网络来预测给定时间的股票价格。在Ensa fi，Amin，Zhang，&Shah（2022 b）中，各种经典和先进的时间序列预测模型被应用于预测家具的未来销售。Yang，McEwen，Ong，&Zihayat（2020）提出了一个数据驱动的端到端抑郁检测框架，该框架利用机器学习技术，为心理健康专业人员提供了一种监测人们抑郁行为的机制。Gellert，Florea，Fiore，Palmieri，&Zanetti（2019）使用马尔可夫链，步幅预测器和混合预测器对建筑物中电力生产和消费的演变进行建模，旨在减少电力需求及其可再生能源生产的不确定性。Nolle，Luettgen，Seeliger，Mühlhäuser（2022）介绍了一种递归神经网络，用于业务流程事件日志中的实时多视角异常检测。Xiong，Yu，Zhang，Leng（2021）提出一种深度学习方法，它结合了基于新闻文章中包含的各个术语的吸引力和及时性的注意力机制，用于预测新闻点击。阮，陈，阿西，&Hamad（2021）提出了两种数据驱动的方法来提供更好的供应链管理决策，一种是基于长短期记忆（LSTM）网络的方法，用于预测多变量时间序列数据，另一种是基于LSTM自动编码器网络的方法，一类支持向量机算法，用于检测销售中的异常。Edich（2022）利用图像分析方法和模糊聚类算法的组合，包括支持向量机和卷积神经网络，来预测用户偏好。Liu，Mai，Shan，&Wu（2020 b）提出了一种文本分析深度学习框架，用于自动提取预测潜在机会主义内幕交易的模式。此外，深度学习方法在资源方面也有很大的潜力。使用预测预测网络上的数据传输量和特定时间范围内的服务请求数量对于优化资源管理计划至关重要（Serhani等人，T. Theodoropoulos，A.马克里斯岛Kontopoulos等人International Journal of Information Management Data Insights 3（2023）10015842020年）。准确的流量预测方法是确保有效的负载均衡和资源分配策略，从而满足QoS要求的基础。随着数据中心的日益发展，需要开发新的大规模网络流量预测方法来处理复杂的高维属性和非线性（Cao等人， 2018年）。为此，已经提出并利用了几种成熟的算法来实现网络利用率的高精度预测。一个例子是使用时间序列模型，即自回归移动平均（ARMA）及其变体自回归综合移动平均（ ARIMA ）和季节性 ARIMA（SARIMA）。Eramo，Catena，Lavacca，di Giorgio（2020）通过利用SARIMA模型并考虑两个因素来最大限度地降低运营成本：i）由于过度估计而执行非必要资源配置时发生的云资源成本，以及ii）QoS降级成本，其发生在传输未充分估计时，导致比需要分配的资源更少的资源，从而危及数据服务的用户的满意度。Liu，Guo，Li，&Luo（2020 a）开发了一种基于误差校正的工作量预测方法，该方法利用ARMA模型结合Elman神经网络（ENN）。作者最初使用ARMA模型进行预测。然后，计算ARMA模型在序列中产生的每个值的预测误差，并将其输入ENN。因此，ENN利用预测误差序列来校正和优化预测值。用于资源使用预测的成熟算法的另一个示例涉及深度学习模型（Duc，Leiva，Casari， &Ostberg，2019）。具体来说，GRU和LSTM神经网络已被用于预测CPU使用Janardhanan& Barrett（2017）。此外，还对两种神经网络架构的预测能力进行了比较（ Violos ，Psomakelis，Danopoulos，Tsanakas，&Varvarigou，2020）。Violos等人（2021 b）设计了一种门控递归神经网络，结合混合贝叶斯进化策略算法，用于边缘上的资源使用预测。他们的新颖之处在于使用进化策略算法来微调网络的超参数。此外，Violos、Pagoulatou、Tsanakas、Tserpes、Varvarigou（2021 a）还包括另一种超调谐技术，以开发用于预测边缘中的资源使用的优化卷积神经网络。他们开发了一种混合优化方法，粒子群优化和贝叶斯优化，与其他机器学习Meta预测器和最先进的资源使用模型相比，可以获得更好的实验结果。Fujimoto，Fujita，Hayashi（2021）利用了油藏计算的概念，适用于处理时间序列数据的动态性。他们使用回声状态网络（ESN）架构（Lukoševičius，2012）进行短期负荷预测任务。ESN是一种RNN，可以基于简单的学习规则来描述时间动态的非线性行为。ESN架构能够以有限的计算资源开发灵活的预测模型，使其适合边缘实现。Pesala，Paul，Ueno，Praneeth Bugata，Kesarwani（2021）提出了另一种在边缘计算环境中预测时间序列数据的方法，其中提出了增量预测算法。由于资源和处理能力有限，边缘设备无法处理大量的多变量时间序列数据。因此，作者开发了一种新的预测方法，称为增量学习向量自回归（ILVAR）。当新的时间序列数据块按顺序到达时，ILVAR可最大限度地减少实际值和预测值之间的差异，从而以增量方式更新预测模型。他们的方法在一些Raspberry Pi-2上进行了评估，并与向量自回归（ VAR ），增量学习 EX treme 学习机（ILELM）和增量学习长短期记忆（ILLSTM）方法进行了比较，产生了更好的结果。尽管已经广泛地研究了预测网络上的资源使用，但是边缘和移动游戏现在处于研究的前沿，因为每天使用的具有低计算能力的移动设备的数量越来越多。直到最近几年，研究人员才试图解决移动和边缘游戏的挑战。Xu，Mehrotra，Mao，Li（2013）开发了PROTEUS系统，该系统使用回归树来预测未来的网络性能。在他们的研究中，PROTEUS被用来预测数据包丢失和系统延迟的发生，并设法将游戏应用程序中的感知延迟减少了4秒。同样，Basiri&Rasoolzadegan（2018）开发了一种延迟感知的成本最小化资源分配框架，可以满足实时在线游戏模拟环境中连接用户的延迟要求。Sharif，Jung，Razzak，Alazab（2021）开发了一种边缘计算，该机制通过考虑传入请求的性质来动态地分配资源，并且在资源利用率、平均响应时间、任务执行时间和能量消耗方面优于其他EC方案。Violos等人（2022 b）介绍了一种双塔神经网络架构，该架构能够预测边缘计算环境中的资源使用情况，以便执行主动自动扩展。该解决方案设法提高了各种性能指标，但与反应性方法相比，它增加了约5%的资源消耗。Theodoropoulos等人已经探索了利用深度学习的边缘和云计算环境的主动容错方法（Theodoropoulos等人，2022年c）资源使用预测的上下文。尽管改进了各种容错指标，但与反应式方法相比，这种方法增加了3.2%的资源消耗。Li等人（2019）开发了一种名为Gaugur的新方法，该方法可以准确预测云中搭配的游戏之间的性能干扰。作者使用一个分类模型来确定与一组其他游戏共处一处的游戏的QoS要求，并使用一个回归模型来预测游戏的性能下降。他们的实验表明，他们的方法可以将整体性能提高15%，资源利用率提高至少20%。表1按主题领域列出了上文讨论的各种方法的摘要。不幸的是，上述科学著作尽管有许多优点，但也存在某些缺点，本书希望克服这些缺点。这些缺点如下：• 到目前为止，预测资源使用的各种尝试主要集中在捕获输入序列中固有的时间模式。然而，这项工作的重点是封装多变量输入序列的方式，纳，能够捕获的时间和结构关系，目前的重要性。• 在大多数上述智能资源分配方法中存在的另一个重要问题是，它们往往会导致资源的过度供应，以便改善各种性能度量。事实上，在某些情况下，资源使用预测模型以故意高估预期在不久的将来发生的资源需求的方式设计。很明显，分配的计算资源量越大，就越容易改进各种性能指标，由于存在更多的处理节点来处理传入任务的事实，因此任务执行开销的形成变得很少发生。然而，通过增加分配的计算资源的量，操作成本也增加。在提高性能和降低成本指标和降低基本运营成本可能会重新作为资源配置优化问题的基石。• 最后，使用并非来自真实应用程序使用场景的数据来检查上述许多方法的效率。在这些工作中，作者选择使用与通用计算过程相对应的数据集，T. Theodoropoulos，A.马克里斯岛Kontopoulos等人International Journal of Information Management Data Insights 3（2023）1001585表1按主题领域分类的不同方法摘要主题领域网络传输预测/网络性能预测（Cao等人， 2018），（Eramo等人， 2020），（Xu等人，（2013年）可靠的资源供应（Duc等人， 2019），（Basiri &Rasoolzadegan，2018），（Sharif等人，（2021年）预测（Janardhanan &Barrett，2017; Liu等人，（2020年a）资源利用预测（Theodoropoulos等人，2022 c），（Violos等人，2021 b），（Violos等人，2021 a），（Violos等人，2022 b），性能预测（Li等人， 2019年）短期需求预测（Fujimoto等人， 2021），（Lukoševičius，2012），（Pesala等人，（2021年）基础资源消耗模式不反映与当代应用相关联的资源复杂性。因此，在现实世界的用例中实现所提出的解决方案的实际效率受到质疑。在这项工作的背景下提出的拟议的智能资源分配的目的是纳入一个预测模型，能够准确地预测预期的资源使用消耗将在不久的将来举行。通过这样做，它能够在需要时做出最佳的扩展决策，以避免任务执行瓶颈和QoS的降低。最重要的是，所提出的模型应能够准确地预测资源需求的减少，并释放适当的计算资源，以避免资源过度供应。最后，所提出的智能资源分配方法进行了测试，使用真实世界的数据，对应于当代MMG应用程序，在提供准确的预测结果和增强资源编排过程的方式，提高应用程序的性能，同时防止任何潜在的过度供应的资源发生的情况下。3. 资源使用预测关于资源使用预测，科学界已经在很大程度上研究了泊松、自回归移动平均（ARMA）和自回归综合移动平均（ARIMA）等统计模型。然而，深度学习的最新进展已经彻底改变了数据分析的格局，因此也改变了决策过程。特别是在时间序列预测的情况下，递归神经网络（RNN）往往会大大超过成熟的统计预测模型。出于这个原因，本文的作者选择只关注基于DL的预测模型。下一节由两部分组成。第一部分描述了经典的递归神经网络模型，而第二部分则侧重于从这些模型衍生的编码器-解码器架构。3.1. RNN拓扑长短期记忆（Long Short-Term Memory，LSTM）是一种非线性时间序列模型，最初由Hochreiter Schmidhuber（1997）引入，以克服标准RNN在处理长期依赖性时出现的消失和爆炸梯度问题以及短期记忆。前一个问题使得RNN的早期层不能被有效地训练。后者使得RNN无法将信息从较早的时间观察传递到较晚的时间观察，因此，RNN网络往往会忘记太快已经学习的内容（Violos等人，2020年）。在标准RNN中，整个神经网络是一系列重复模块的链，这些模块形成为一系列简单的隐藏网络。相比之下，LSTM的隐藏层在每个隐藏层中引入了门和存储单元的概念。LSTM单元中的门使它能够保留一个更恒定的错误，可以通过时间反向传播（Chauhan Palivela，2021; Patterson Gibson，2017）。更具体地说，为了建立时间连接，LSTM主要在整个生命周期中保持内部存储单元状态。存储器单元状态与中间输出和子存储器输入相互作用，以确定内部状态向量的哪些元素Fig. 1. LSTM单元架构。应根据产出更新、维持或遗忘前一个时间步的输入和当前时间步的输入此外，LSTM结构还定义了三个门：一个输入门，它控制激活进入存储单元;一个遗忘门，它负责通过遗忘过去的输入数据来重置存储单元;最后，一个输出门，它确定值。下一个隐藏的国家。描述了LSTM网络的体系结构图 1.门控递归单元（GRU）模型首先由（Cho等人，2014年），代表了LSTM的一个变体。虽然LSTM有两个不同的状态通过细胞，细胞状态和隐藏状态，GRU只包含一个隐藏状态之间的时间步长转移。此外，GRU单元仅包含两个门，更新门和复位门。更新门确定存储在先前隐藏状态中的信息量，这些信息将被保留用于将来。它与LSTM中的输入和遗忘门非常相似。然而，对添加到网络的新存储器内容的控制仅在GRU中呈现。该模型使用重置门来决定忘记多少过去的信息。由于GRU是一个比LSTM更简单的架构，它需要更少的计算，可以更快地训练。双向长短期记忆（BI-LSTM）神经网络类似于LSTM网络，其区别在于输入在两个方向上流动。具体来说，在标准LSTM网络中，输入可以在一个方向上前进，向后或向前，但在BI-LSTM中，输入在两个方向上前进，以保留未来和过去的信息，即向后（未来到过去）或向前（过去未来）。BI-LSTM网络使用两个模型：i）一个模型学习所提供的输入序列，ii）第二个模型学习顺序正好相反最后，在称为合并步骤的过程中，将两个网络合并为一个网络，可以通过以下方式实现：以下方法之一：求和、相乘、求平均或级联，这是默认方法。3.2. 编码器-解码器（ED）拓扑编码器-解码器架构可以处理都是可变长度序列的输入和输出，因此适合于序列到序列预测。此功能是模型体系结构的结果。编码器将可变长度序列作为输入，T. Theodoropoulos，A.马克里斯岛Kontopoulos等人International Journal of Information Management Data Insights 3（2023）1001586将其转化为具有固定形状的状态。解码器使用编码器的最终状态进行适当的配置。它被训练成gener- 基于编码器收集的信息来选择输出。更具体地说，解码器是使用LSTM模型实现的，该模型经过训练以生成输出序列。解码器的初始隐藏状态是从编码器获得的最终隐藏状态。每个部分期望解码器输出被检查的多个未来时间步长中的每一个的值。为此，采用了重复向量层。此外，还包括两个附加层，即全连接层和输出层。全连接层解释解码器输出序列中的每个时间步，并将乘积发送到输出层，从而在输出序列中产生单步预测。为了预测下一个时间步长，必须将实现和输出层都包装在时间分布式包装器中。由解码器提供的输出将由相同的全连接输出层处理，从而使得经包装的层能够由解码器用于每个时间步长。3.2.1. LSTM双向LSTM ED对于架构的编码器部分，使用了LSTM / Bidirectional LSTM模型。该模型接收一个随时间变化的输入序列，并产生一个包含输入序列内部表示的单元素输出向量。的大小对应于使用的LSTM / Bidirectional LSTM单元的数量。解码器部分也是通过利用LSTM /双向LSTM层来构建的。属于解码器部分的每个单元被设计为输出正在检查的每个未来时间步长的值。为了做到这一点，一个重复矢量层是杠杆作用.3.2.2. CNN-LSTM ED特征提取可以为预测模型生成有意义的信息，从而使其能够执行准确的预测（Khalid，Khalil，Nasreen，2014）。在这方面，时间序列问题不是例外。此外，特征提取非常耗时，并且各种方法在不同的应用中存在很大差异（ Chauhan ， Palivela ， Tiwari ， 2021; Hira Gillies ，2015）。近年来，研究人员一直在使用卷积运算进行自动特征提取（ Elmaz ， Eyckerman ， Casteels ， Latré ， &Hellinckx ， 2021 ），（Nasir，Khan，&Varlamis，2021）。卷积神经网络（CNN）并不是为了适应序列形式的输入而设计的。然而，一维CNN层能够接收输入，然后学习显著特征。CNN和LSTM都期望三维输入。就CNN而言，该设计特性被公式化，以便能够接收三个不同的红-绿-蓝通道。另一方面，LSTM需要对应于a）样本的数量、b）要检查的时间步长的数量以及c）特征的数量的三维输入。更具体地，使用两个1维卷积层。第一层读取输入序列并将结果投影到特征图上，而第二层接收第一层的输出并执行相同的功能，以放大任何显著特征。随后，利用最大池化层来累积来自由前两个层生成的地图的特征。在最后一步中，用于将编码器输出整形为解码器可以处理的期望形状。CNN-LSTM架构通常涉及CNN层，用于结合LSTM对输入数据进行特征提取以支持序列预测。3.2.3. 混合LSTM ED该模型（Theodoropoulos，Maroudis，Violos，Tserpes，2021）使用了双向和单向LSTM。输入层是一个双向LSTM。然后，将单向LSTM层堆叠在双向层的顶部。双向层将以三维形式为每个时间步长提供一个隐藏状态输出，然后将其用作单向层的输入该模型可以利用时间相关性以比经典模型更复杂的方式存在于各种时间序列中。此外，由于利用了多个层，因此可以更鲁棒地表示输入序列的特征。在解码器部分实现了相同的设计逻辑以反映编码器形态。与之前探索的解码器中使用的基本LSTM模型不同，混合模型使用了堆叠在单向层之上的双向层。这种结构对称性使得解码器能够正确地重建输入序列的底层时间图案。3.2.4. Hybrid LSTM attention ED这种架构（ Violos ， Theodoropoulos ， Maroudis ， Leivadeas ，Tserpes，2022 a）还利用了基于递归的层之上的两个自我注意层。第一个位于编码器部分，接收双向LSTM层产生的输出作为输入。该层的输出应被单向LSTM层用作输入。第二个Attention层位于Decoder部分。它接收单向LSTM层的输出作为输入，并且其产生的输出将被双向LSTM层用作输入。该架构分别在编码器和解码器部分使用注意力机制。此外，在该特定架构中，注意力层以旨在增强上述混合双向-单向LSTM结构封装各种时间依赖性的能力的方式被利用。4. 图神经网络编码器-解码器拓扑的工作方式在很大程度上依赖于准确地封装输入序列中发现的各种依赖关系。为了这样做，不同类型的编码器实体利用各种特征提取技术。不幸的是，上述编码器的结构特征阻止它们充分地封装在形成输入序列的各种变量之间创建的潜在相互依赖性。在多元预测的情况下，这种能力的缺乏带来了重大的局限性。多变量预测范式假设每个输入变量与产生的预测相关。因此，可以肯定地说，在构成输入序列的变量之间形成了特定的相关性。这些限制决定了需要重新检查编码器实体图是数据结构，具有强大的表达能力，什么关系到各种实体之间关系的封装（de Fernando，Pedronette，deSousa，Valem，Guilherme，2022）。在过去的几十年里，科学界见证了图神经网络的出现。图神经网络的工作方式是基于以一种先进的方式封装构成图状结构的各个节点之间的空间依赖性。根据图神经网络范式，每个节点的状态取决于其邻居的状态。图神经网络的目标就是捕捉这种空间依赖性。为此，已经提出了许多类型的图神经网络。尽管各种类型的图神经网络固有的结构差异，但它们都执行相同的功能，但利用不同的方法来建立它。所有这些都是通过将信息从其邻居传递到节点本身的过程来封装节点的抽象表示。这个过程可以通过信息传播，消息传递或图形卷积来实现。4.1. 图卷积图卷积网络（GCN）（Kipf Welling，2016）可以以符合图结构数据的方式概括经典卷积神经网络（CNN）。根据GCNT. Theodoropoulos，A.马克里斯岛Kontopoulos等人International Journal of Information Management Data Insight

下载后可阅读完整内容，剩余1页未读，立即下载