沙特国王大学学报：深度学习优化服务质量建模

32 浏览量更新于2024-01-27 收藏 1.9MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

沙特国王大学学报深度学习和优化服务质量建模Krishnakumar Arunachalama，Senthilaran Thangamuthua，Vijayanand Shanmugamb，Mukesh Rajuc，Kamali Premrajda印度班加罗尔ACS工程学院CSE系b印度班加罗尔RajaRajeswari工程学院CSE系c印度班加罗尔ACS工程学院航空航天工程系d印度，阿迪拉姆帕蒂纳姆，Khadir Mohideen学院数学系阿提奇莱因福奥文章历史记录：2021年5月23日收到2021年12月16日修订2022年1月22日接受在线预订2022年关键词：优化深度学习机器学习时序建模A B S T R A C T机器学习越来越多地用于为从各种底层工程过程中收集的数据创建数字双胞胎这种数字双胞胎可以用于各种各样的活动，例如优化，预测未来数据等。在这方面，预测时间序列数据在未来时间步长中的演变在各种工程系统和应用中经常遇到特别是，基于点的预测的时间序列数据的概率预测通常是鼓励的，但是实现起来具有挑战性在这项工作中，深度学习（DR）技术与各种最先进的数学优化算法相结合，以有效地实现对各种低功耗物联网（IoT）设备发出的服务质量（QoS）数据的“基于置信度”的概率预测。结果表明，深度神经网络（DNN）如果与正确的数学优化算法相结合，可以帮助为单个时间序列和多个时间序列数据的组合生成准确的概率预测。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍使用人工智能（AI）和机器学习（ML）方法以便为源自各种来源的数据创建数字孪生或机器学习模型（或简单地模型）在各种学科中变得越来越流行。这些模型通常用于各种目的，例如理解数据源，预测数据的演变，在优化过程中作为计算昂贵的数据源的替代品等。特别是，时间序列数据（即，感兴趣的量随时间变化的为这种时变数据创建模型并进行预测是机器学习的重要方面之一传统的时间序列分析方法，如线性、平均、ARIMA模型，在解决预测时变数据的问题方面发挥着重要作用（Box和Jenkins，1968;Díaz-Robles，2008）。然而，一些传统的方法，如ARIMA，需要专门知识来设置或调整一些模型参数的值模型超参数），例如海声性。此外，大多数预测方法是*通讯作者。电子邮件地址：krishnakumar3489@gmail.com（K. Arunachalam）。开发或使用，以建立一个模型和预测一个单一的时间序列数据。在这种背景下，对每个时间序列数据分别建立模型，并利用相应的模型对每个时间序列数据进行每个模型的手动选择和调整被广泛地考虑各种因素，如季节性，趋势，自相关结构等。状态空间模型，指数平滑技术，传统的在过去的几年里，构建一个可以一次性近似和预测多个时间序列数据的单一模型（有时称为全局模型）在许多应用领域越来越重要（Graves，2014; Sutskever等人，2014年）。使用单个模型来近似多个时间序列数据不仅可以减轻各种时间密集的手动步骤，而且还可以允许使用相关的时间序列来有效地近似每个时间序列数据（即，协变量）数据（Kourentzes，2013; Zhang等人，1998年）。此外，预测时间序列数据在点估计上的概率分布是另一个方面，在各种应用领域中也越来越成为一个重要的要求。文献中存在各种基于神经网络架构的方法，这些方法可用于https://doi.org/10.1016/j.jksuci.2022.01.0161319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comK. Arunachalam，S.Thangamuthu，V.Shanmugam等人沙特国王大学学报5999YY建立涉及多个时间序列数据的概率单一模型（Sutskever等人，2014年）。这项工作的主要贡献有三个方面：（1）我们展示了深度神经网络在构建模型中的使用，该模型结合了多个时间序列数据，并对所有涉及的时间序列数据进行预测（2）此外，我们展示了深度神经网络在涉及多个时间序列数据的概率预测中的使用（3）此外，我们展示了各种最先进的优化器在构建基于深度神经网络的精确模型时的效果，以进行涉及多个时间序列数据的概率预测所有这些贡献都是通过使用最初从低功率物联网设备发出的开源QoS时间序列数据的集合来证明的（White等人， 2018年）。文件的其余部分组织如下。我们首先讨论的方法，其中包括数据集和概率模型，在第2节。第3节提供了在此过程中采用的各种最先进的优化器的概述。RNN会导致病态优化问题，DeepAR使用的另一种RNN变体称为长短期记忆（LSTM）可以有效地缓解这一问题RNN的另一个概念是DeepAR使用的编码器-解码器DeepAR允许RNN映射一个输入向量x1/4x1;. .;yn不同长度的y。它在其架构中使用LSTM单元，允许同时对许多时间序列序列进行建模。此外，编码器-解码器框架允许同时获得多个时间序列的不同序列长度的预测。还可以基于相关的时间序列序列（即，协变量）。这允许用较少的历史数据拟合时间序列。此外，预测的分位数估计可以使用DeepAR中的Monte-Carlo抽样来获得。DeepAR对每个时间序列的未来值的条件分布进行本文第4节提供了结果以及相应的讨论。第5节总结了我们的研究结果以及未来可能的工作。zi;t0：T作为1/2zi;t0 ;zi;t01 ... . ; zi;T[英语泛读材料2. 方法2.1. 数据集本文中使用的主要数据集表示QoS参数（即，Nallur and White（2017）and Xia（2008））在一个月内使用各种传感器设备记录了在使用Raspberry Pi设备的自定义设置中调用的服务。该数据集由White et al.（2018）公开提供。该数据集包含各种时间序列数据，反映了QoS随时间的变化，从而为我们目前的工作提供了理想的选择之一。QoS参数的测量使用10种不同类型的传感器，包括：压力，高度，Pzi;t0：Tjzi;1：t0- 1;xi;1：T 2给定每个时间序列的过去值zi;1：t0-11/4/2zi;1;. . . ;zi;t0-2;zi;t0-1];103其中，xi;1：T是协变量，其被假设为在所有时间步长处是已知的，并且t0是zi;t的历史值已知的最后时间步长。基于RNN的自回归公式，假设模型分布具有似然因子不QHzi;t0：Tjzi;1：t0- 1;xi; 1：TvQHzi;tjzi; 1：t- 1;xi; 1：Tv4t¼t0这反过来又可以表示为输出的参数化，湿度，2种温度传感器，LPG，CO，烟雾，红外运动传感器和光敏电阻。在一个月的时间段内，每5分钟测量一次QoS。关于数据集的把hi;t 自回归RNN不可以从White et al.（2018）获得。此外，我们使用了Zheng et al.（2010）和Zheng et al. （2014）由于数据集中存在各种各样的Web服务。1此数据集包含真实世界的QoS（即，通过）来自339个用户在各种5825个网络服务上。我们提取对应于10个用户的数据（即，10个时间序列数据，每个5825个数据点），并将其用于我们的工作。关于数据集的更多信息可以从Zheng et al.（2010）和Zheng et al. （2014年）。此外，读者可以参考Syu和Wang（2021）对各种QoS数据集和最先进的文章进行全面调查，这些文章在预测和深度学习的背景下使用QoS。2.2. 概率模型一种具有自回归递归神经网络（ RNN ）的概率预测方法（Sutskever，2013），被称为DeepAR（Salinas等人， 2019年，它被用于这项工作。该方法最初由Graves（2014）和Kaastra andBoyd（1996）提出。RNN的各种概念在DeepAR技术的工作方式中发挥着重要作用。例如，RNN本质上是确定性的，并且与诸如本质上是线性非确定性动态系统的指数平滑的预测技术相比是非线性动态系统（Hyndman等人，2008; Zhang等人， 1998年）。虽然，1http://wsdream.github.io。QHzi;t0：Tjzi;1：t0-1;xi;1：Tlzi;tjhhi;t;H;5t¼t0其中hi;t由RNN表示的函数参数化，RNN由多层LSTM单元组成。关于DeepAR 方法的数学公式的更多信息可以从 Gers 和 Schmidhuber（2001 ），Gregor 和Danihelka（2015）以及Salinas等人获得。（ 2019年）。MxNet-GluonTS（Salinas等人，2019）框架，在我们的工作中，用于构建概率DeepAR 模型。它是一个开源的机器学习框架，与Tensorflow、PyTorch等框架非常相似。然而，GluonTS主要集中在机器学习问题的时间序列建模方面。在我们的工作中，DeepAR模型是用上下文长度（即，历史时间步）为5，并对100个未来时间步进行预测。DeepAR架构由2个RNN层组成，每个RNN层包含40个RNN单元。DeepAR架构会在训练和验证数据集上自动应用数据缩放。基于RNN单元的dropout与正则化参数0.1一起使用。在模型训练的每个时期期间使用32的批量大小。在模型训练期间不应用插补或时间激活规则化。2.3. 误差度量模型的性能通常由各种误差度量的值来评估。在我们的工作中，我们使用均方根误差K. Arunachalam，S.Thangamuthu，V.Shanmugam等人沙特国王大学学报6000不不Xp-·-Sst1/4fg不yi-y^in=1我我（RMSE）、归一化均方根误差（NRMSE）和各种加权数量损失（ WQL ）指标，以评估模型的性能（ Armstrong 和 Collopy ，1992）。RMSE和NRMSE都可以被认为提供了整体鲁棒性（即，模型在许多测试样本点上的准确度）。然而，可靠性（即，模型在许多测试样本点上的不准确程度）通常不能被RMSE和NRMSE捕获WQL度量允许在一定程度上捕获模型在不同置信区域的可靠性2.3.1. RMSE均方根误差（Chai和Draxler，2014）用于测量给定两个数据集之间的误差，即，将预测值与已知值或观测值进行如果RMSE值很小，则预测值意味着接近实际值。● LBSGD● DCASGD● FTRL● FTML● SGLD3.1. AdaGrad自适应梯度（ AdaGrad ）优化器是自适应学习率方法之一（Duchi和Singer，2011）。自适应学习方法，顾名思义，在优化过程中为模型的每个可学习参数调整全局学习率准确地说，为了获得每个可学习参数的学习率，优化器将全局学习率乘以相应参数的后续梯度估计的L2范数优化器使用以下方程组执行更新步骤。vuXn2GXt¼Xt1-p·Gt9RMSE¼ 联系我们我-我-我nð6Þ-和你知道吗？其中，n是观测值的数量，yi表示预测值。Ues和y^i表示观测值。2.3.2. NRMSE归一化均方根误差是RMSE的归一化版本，可以表示为vuXnSt¼St-1G2;10其中g为0： 001，s为10- 7。3.2. RMSProp均方根传播（RMS prop）是一种用于训练神经网络的优化器。这是由杰夫·辛顿提出的，反向传播。为了提高学习率，RMSprop使用指数衰减的平均值而不是总和NRMSE最大值最小值：1072.3.3. WQL加权数量损失度量用于评估给定模型在不同分位数处的准确性。在以下情况下特别有用：（Ruder，2016; Tieleman和Hinton，2012）。它在一个固定的窗口中组装梯度，而不是让所有的梯度用于动量计算。它有助于模型来自动调整它的学习率优化器使用以下方程组执行更新步骤处理低估和高估模型的影响（Srivastava，2014）。在我们的工作中，WQL是在10、50和90分位数计算的，可以表示为St← bSt-11-bG2和ð11Þn½maxyi-y^iT;01-Tmaxy^iT-yi;0]WQL¼2i¼1n：180Xt← Xt1gGt;1012g-六个Xi¼1jjjj其中b=0：9，s= 1/4 10。3.3. AdaDelta其中T0：1; 0：5;.. . 0： 9是集合中的分位数。总的来说，对于所有在我们的工作中引入的误差度量（RMSE，NRMSE& WQL），它们的小范围值表明了一个优越的模型（Chen等人，2017年）。3. 优化器在这项工作中考虑了以下最先进的优化器列表以这样的方式选择优化器，使得各种各样的优化器类（即，自适应学习方法、在线学习方法、随机方法和贝叶斯方法），这些方法在MxNet-GluonTS框架中可用。● AdaGrad● RMSProp● AdaDeltaAdaDelta（或自适应Delta）属于随机梯度下降（SGD）算法家族，为超参数调整提供了灵活的技术（Zeiler，2012）。术语Delta表示当前权重和更新后的权重之间的差。AdaDelta是AdaGrad的扩展，以解决AdaGrad的关键缺点，即平方梯度的累积。在AdaGrad中，累计和不断放大，导致学习率下降。AdaDelta通过累积固定大小的w而不是所有过去累积的梯度来调整学习速率。通过这种方式，即使在完成许多更新之后，学习率也保持平衡。因此，在AdaDelta中不需要默认的学习率。以下方程组在更新步骤中起重要作用ht1htDht13和● 亚当DhtRMS½Dh]t-1：1014mm● 那达慕● Signum¼-RM S½St]K. Arunachalam，S.Thangamuthu，V.Shanmugam等人沙特国王大学学报6001ð Þ不2t-12不不1/4;1/4与RMSprop相比，区别在于使用了delta参数而不是学习率参数。3.4. 亚当自适应矩估计（Adam）是自适应学习方法之一（Kingma和Ba，2014）。亚当更像到RMSprop和基于Momentum的GD优化器的俱乐部效应。Adam实现了均方根（RMS）衰减平均梯度在RMSprop优化器。此外，它还利用了动量的衰减平均。优化器首先计算梯度的移动平均值和梯度的平方S t（具有超参数b1和b2[0,1 - 10][02 - 10][02 - 10][02 - 10]Vt¼ b1Vt-1伏特1- b1伏特Gt15伏特3.7. LBSGD大批量随机梯度下降（LBSGD）优化器为神经网络的每一层实现了单独的学习率。它使用一种称为分层自适应速率缩放（LARS）的技术，以实现每层的单独学习速率。除此之外，LBSGD通常表现出与SGD相似的关于这个优化器的更多信息，读者可以参考You et al.（2017年）。3.8. DCASGD延迟补偿异步随机梯度下降算法（DCASGD）是一种常用于大规模分布式训练问题的优化算法。DCASGD可以表现出与顺序SGD类似的效果，但是与异步随机梯度S 1/4 b V VVV1- b VGð16Þ下降（ASGD）算法。DCASGD利用泰勒函数和损失函数的Hessian矩阵（Martens，2010）哪里V^V tS^St1- b11- b2为了纠正与ASGD相关联的延迟梯度问题（参见等式2），20）。Wir1/4Wir-1r·gradWik·gradWi2·Wir-Wik;ð2 0Þ其中，gradWi是延迟梯度，Wir是h h-gS^不参数，k是要控制的比例因子吨/升qV^ts的延迟更多关于优化器的数学公式可以从Zheng et al. （2020年）。g是学习率。3.5. 那达慕Nesterov加速自适应矩估计（Nadam）优化器是Adam优化器的许多变体之一。优化器可以被视为RMSprop和Polyak Momentum优化器的组合（Dozat，2016 a; Nesterov，1983）。然而，主要特征是Polyak动量分量被Nesterov动量（Dozat，2016 b）取代，这导致前瞻梯度被用于更新动量的加权平均值。总体而言，Nadam优化器比Adam优化器稍快，并且通常需要有限的超参数调整。有关那达慕优化器的更多信息，读者可以参考Dozat（2016 b）。3.6. SignumSignum是一种常用于大规模分布式训练问题的优化器。Signum通过有效地利用每个小批量产生的梯度的符号而不是精确的梯度来解决优化问题。优化器在其估计压缩梯度的方式上具有两个数学变体（Bernstein等人，2018年）。使动量等于0导致Signum优化器的第一个变体（参见等式1）。17），Wi1¼Wi-lr·signgradWi;17而具有不等于0的动量导致如下的Signum优化器的第二变型。Vi1½ bVi-graduateWi18Wi1¼Wi-lr·signVi1：19有关此优化器的更多信息，请参考读者3.9. FTRL跟随正规化领导者（FTRL）是在线学习优化器之一（Mcmahanand Inc，2021）。FTRL和梯度下降算法的变体之间有很大的相似性，因为在线学习与神经网络的训练非常相似（Mcmahan and Inc，2021）。优化者通过最小化称为总遗憾的重要参数来解决优化问题（McMahan等人，2013年）。优化器的数学公式可以从McMahan等人获得。（2013年）。3.10. FTML跟随移动的领导者（FTML）与RMSProp和亚当优化器密切相关，它结合了他们的一些积极特征，同时避免了他们的大部分陷阱。在FTRL中，优化问题的解决方案涉及估计每次更新的所有先前梯度的总和。然而，这不太适合深度学习非凸损失函数（Jain和Kar，2017）。FTML解决了FTRL的这一缺陷，有关这方面的更多信息可以从Zheng和Kwok（2017）获得。3.11. SGLD随机梯度朗之万动力学（SGLD）是一种基于贝叶斯公式的随机梯度下降优化方法。Welling and Teh（2011）在2011年提出SGLD方法是一种迭代优化算法，它在每个更新步骤中添加高斯噪声并将学习率降低到零通过使用SGLD，可以在模型训练本身期间捕获机器学习模型参数的不确定性或置信区间SGLD中的权重更新如下所示：W¼Wlri1-gradeWg;2002年1月Bernstein et al.（2018）.123 4 5 67 89 10 1112 13 1415ii12不K. Arunachalam，S.Thangamuthu，V.Shanmugam等人沙特国王大学学报6002Fig. 1.从各种IoT传感器记录的服务质量（QoS）数据（主数据集）。顶部的图显示了用于训练机器学习模型的训练数据。下图显示了用于评估模型准确性的测试数据（红线后的数据K. Arunachalam，S.Thangamuthu，V.Shanmugam等人沙特国王大学学报6003其中gi1来自均值为零且方差为lri 1的高斯过程。4. 成果讨论图1示出了从第2.1节中描述的各种IoT传感器记录的QoS数据（即，主要数据集。在其余的讨论中，术语“数据”和“数据集”指的是“主数据集”，除非明确指定。由于QoS数据来自10个不同的物联网传感器，因此使用10个不同的时间序列数据集来训练和测试机器学习模型。每个训练数据集包含约7000个记录的样本点（因此样本点的总数约为70000个）。实际记录的数据进一步分为训练数据集和验证数据集。训练数据集用于训练机器学习模型，而验证数据集用于测试或验证所构建的机器学习模型的准确性。在我们的例子中，实际记录的7000个样本点的数据集进一步分为6900个训练样本点和100个测试样本点。在我们的例子中，训练数据集与验证数据集的比例是70：1（即，在训练数据集中使用的样本点是在验证数据集中使用的样本点的70倍）。选择该比率的理由是，与ARIMA等传统方法相比，深度学习架构通常需要大量的训练数据集（Box和Jenkins，1968;Díaz-Robles，2008）。二级数据集包含5725个训练样本和10个用户中每个用户的100个验证样本。在时间序列建模的背景下，一旦模型使用训练数据建立，并被馈送训练数据，以便随后提供预测值。预测值进一步与遗漏的验证（或测试）数据集进行比较，以评估模型再现验证数据集的能力。在这项工作中，使用第2.3节中描述的各种误差度量进行模型评估。顶部子图（图中） 1）显示训练数据集，而底部子图显示验证数据集作为训练数据集的延续（参见垂直分割线）。表1提供了使用第3节中描述的各种优化器构建的DeepAR模型的准确性的定量评估。确切地说，该表提供了使用公共验证数据集计算的各种误差度量的值，用于使用具有公共训练数据集的不同对于表1中所示的所有误差度量，值越低，对应的模型精度越好这又意味着实际值和预测值彼此非常接近（即，训练模型的预期期望质量可以观察到，使用FTML优化器训练的DeepAR模型通过为大多数误差度量提供最低值而获得最高此外，使用RMSprop优化器训练的模型在各种误差指标中获得了第二好的准确性此外，可以注意到，自适应学习率方法的大多数变体（AdaDelta、Adam、Nadam Signum，除了基于AdaGrad的模型，其导致第三差模型）导致具有良好准确度的模型顾名思义，这些优化器的学习率的自适应性质可能是它们表现良好的原因。然而，在AdaGrad优化器的情况下，损失函数梯度的累积平方可以归咎于其性能不佳。基于随机梯度下降的优化器经常用于大规模分布式模型训练（LBSGD ，DCASGD ），导致模型的准确性最低（Signum 除外）。逐层学习率的使用所有基于在线学习算法的优化器（FTMLFTRL）都能产生良好的性能模型。参数的持续学习和更新的性质一旦即使在进行预测之后也知道真实值）可能是它们在显著减少模型损失方面有效的原因。令人惊讶的是，基于贝叶斯方法的优化器（SGLD），这是已知的，提供模型参数的置信区间，而不是点估计，导致我们的问题的穷人模型虽然我们很少注意到其（基于贝叶斯的优化器）性能不佳的原因，但我们怀疑大型训练数据集和时间要求是一些潜在的原因。图图2和图3提供了针对我们的问题使用FTML（表现最好）和DCASGD（表现最差）优化器构建的DeepAR模型的准确性的定性评估。由于在这项工作中，所有DeepAR模型本质上都是多变量的（即，用来自所有传感器的数据训练单个模型在单个实例处对所有传感器的测试数据进行预测在图1和图2中分别提供了每个传感器数据的实际QoS值和预测QoS值之间的比较。2和3每个子图中的x轴和y轴值分别表示时间和相应的QoS值每个图中的蓝色粗线提供了在水平轴中给定的时间段内观察到的实际QoS类似地，每个图中的红色粗线提供了从DeepAR模型获得的预测QoS值的中值，用于对应于测试数据的时间跨度。图中的红色线接近蓝色线。 2表明使用FTML优化器的DeepAR模型的预测非常准确。相反，红色和蓝色的线条在图中是分开的。这表明使用DCASGD优化器的DeepAR模型的预测并不那么准确。此外，图1和图2中红色区域的亮部和暗部。 2和3表示预测的机密区域（即，的表1使用各种最先进的优化器（主要数据集）构建的DeepAR模型的验证数据集计算的误差指标。优化器RMSENRMSEWQuantileLoss[0.1]WQuantileLoss[0.5]WQuantileLoss[0.9]AdaGrad138.35021.53480.47200.93800.6416RMSProp76.00020.84310.28130.49190.2352AdaDelta67.24460.74600.23910.47670.2650亚当78.66340.87270.22530.49750.2343那达慕76.59160.84970.21880.47670.2931Signum74.24480.82370.23530.50130.3031LBSGD270.02042.99563.37091.44313.1426DCASGD3972.185744.066960.410915.359158.8736FTRL86.89790.96400.28030.53740.3633FTML62.85230.69730.22790.44170.2301SGLD1274.632514.140619.03405.255818.6897K. Arunachalam，S.Thangamuthu，V.Shanmugam等人沙特国王大学学报6004图二、从各种物联网传感器（主数据集）记录的服务质量（QoS）数据的概率预测经过训练的模型使用DeepAR架构和跟随移动的领导者（FTML）优化器。中位预测（粗红线）提供了最可能的预测，而50%（深红色阴影）和90%（浅红色阴影）预测区间分别提供了50%和90%时间的可能预测K. Arunachalam，S.Thangamuthu，V.Shanmugam等人沙特国王大学学报6005图3.第三章。从各种物联网传感器（主数据集）记录的服务质量（QoS）数据的概率预测训练模型使用DeepAR架构和延迟补偿异步随机梯度下降（DCASGD）优化器。中位预测（粗红线）提供了最可能的预测，而50%（深红色阴影）和90%（浅红色阴影）预测区间分别提供了50%和90%时间的可能预测K. Arunachalam，S.Thangamuthu，V.Shanmugam等人沙特国王大学学报6006K2ð Þ表2使用各种最先进的优化器构建的DeepAR模型的验证数据集计算的误差指标（二级数据集）。优化器RMSENRMSEWQuantileLoss[0.1]WQuantileLoss[0.5]WQuantileLoss[0.9]AdaGrad205.22724.47830.80343.37922.1068RMSProp181.97873.97101.24612.29042.5484AdaDelta183.80604.01091.31322.68802.5861亚当395.84098.63783.33315.52435.8701那达慕723.669015.79142.953512.67487.9863Signum832.156218.15885.06116.279612.8864FTRL659.634214.39412.708810.82867.3565FTML699.105315.25543.252010.82478.2223预测可能出现90% 50%的时间，分别）。可以清楚地观察到，（预测的）50%和90%预测区间都将实际QoS值封装在图2中的几乎所有曲线图中。然而，这与基于DCASGD优化器的模型完全相反，正如人们可以看到的那样（从图3），50%和90%的预测区间都太远离中位数预测和实际的QoS值。表2提供了使用第3节中描述的各种优化器构建的DeepAR模型的准确性的定量评估，用于2.1中描述的二级数据集。与主要数据集相比，模型准确建模次要数据集的总体能力较低次级数据集的显式波动动态可能是性能水平降低的原因（Zheng等人，2010; Zheng等人，2014年）。RMSprop和基于自适应学习率的优化器也将其良好的性能带到了辅助数据集。基于随机梯度下降的优化器在训练过程中失败了。需要注意的是，所构建的DeepAR模型是如前所述的多变量模型。多变量模型比单变量模型具有更大的优势。在单变量模型中，必须为每个数据集构建单独的模型（因此导致总共10个模型，每个基于IoT传感器的数据集一个，或者在辅助数据集的情况下每个用户一个）。由于这个原因，单变量模型通常需要大量的计算和存储成本，而多变量模型可以很容易地解决这些问题。无论所建立的模型的性质如何，对需要进行预测的未来时间步长的长度没有限制。然而，未来时间步长的长度越长，预测可能变得越不准确。5. 结论基于深度神经网络（DNN）的架构被证明用于对源自各种物联网（IoT）设备的服务质量（QoS）数据的还展示了深度神经架构在构建结合多个时间序列数据的模型以及对所有相关时间序列数据进行预测方面的功效此外，研究了各种最先进的优化器在构建基于深度神经网络的精确模型时对涉及多个时间序列数据的概率预测结果表明，Follow the Moving Leader和RMSprop优化器都是优化DeepAR架构权重值的最佳执行者（对于我们的结果还表明，传统的自适应学习方法，如AdaDelta，Adam，Nadam和Signum提供更准确的概率模型比LBSGD和DCASGD随机梯度下降为基础的优化。我们未来的工作将集中在优化器的竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。引用阿姆斯特朗，J.，Collopy，F.，1992.预测方法推广的误差测量：经验比较。国际期刊预测。8，69-80。https://doi.org/10.1016/0169-2070（92）90008-W。伯恩斯坦， J. ， Wang ， Y.X. ， Azizzadenesheli ， K. ， Anandkumar ， A. ， 2018.signsgd：非凸问题的压缩优化。arXiv：1802.04434。博克斯，通用电气，詹金斯，G.，1968.预测和控制的一些最新进展。J. R. Stat. Soc. 序列C（应用）Stat.） 17（02），19-109。Chai，T.，德拉克斯勒河，2014.均方根误差（rmse）或平均绝对误差（mae）？–地球科学模型开发。7，1247-1250。https://doi.org/10.5194/gmd-7-1247-2014网站。陈春，特怀克罗斯，J.，Garibaldi，J.，2017.基于有界相对误差的时间序列预测精度测度。PLOS ONE 12，1-23. https://doi.org/10.1371/journal.pone.0174202.洛杉矶迪亚兹-罗伯斯2008.预测城市地区颗粒物的混合arima和人工神经网络模型：智利特木科的实例。大气层。Environ. 42（35），8331-8340。Dozat，T.，2016年a。把涅斯捷罗夫的动力转化成亚当。国际学习代表会议，1-14。Dozat，T.，2016.把涅斯捷罗夫的动力转化成亚当。Duchi，J.，辛格，Y.，2011.在线学习和随机优化的自适应次梯度方法。 J. 马赫学习.Res. 12，2121-2159。Gers，F.，Schmidhuber，J.，2001.最小二乘模型在时间序列预测中的应用。在：GeorgDorffner，编辑，人工神经网络- ICANN 2001（会议记录）。pp. 669-676格雷夫斯，A.，2014.使用递归神经网络生成序列。arXiv：1308.0850。Gregor，K.，丹尼赫尔卡岛2015. Draw：一个用于图像生成的递归神经网络。arXiv预印本arXiv：1502.04623。海德曼河，Koehler，A.，Ord，K.，斯奈德河，2008.指数平滑预测。状态空间Approach.https://doi.org/10.1007/978-3-540-71918-2网站。贾恩，P.，Kar，P.，2017.机器学习的非凸优化。Found. 趋势马赫学习. 10，142-336。卡斯特拉岛，博伊德 M. ， 1996. 设计一个预测金融和经济时间序列的神经网络。Neurocomputing 10（3），215金玛，D.P.，巴，J.，2014. Adam：随机最佳化的方法。国际学习代表会议，1-15。Kourentzes，N.，2013.用神经网络进行间歇性需求预测。 Int. J. Prod. Econ.143（1），198-206.Martens，J.，2010.通过无黑森优化的深度学习。机器学习国际会议，735-742。Mcmahan，H. B.，Inc，G.，Follow-the-regularized-leader and mirror descent：等价定理和l1正则化。McMahan，H. B.，Holt，G.，Sculley，D.，杨，M.，Ebner，D.，格雷迪，J，涅湖，加-地Phillips，T.，Davydov，E.，Golovin，D.，Chikkerur，S.，Liu，D.，中国科学院，Wattenberg，M.，Hrafnkelsson，A.M.，Boulos，T.，Kubica，J.，2013.广告点击预测：从战壕的看法。第19届ACM SIGKDD知识发现和数据挖掘国际会议论文集。计算机协会，纽约，纽约，美国， pp 。 1222-1230.https://doi.org/10.1145/2487575.2488200网站。Nallur，V.，怀特，G.，2017.物联网中的服务质量方法：系统映射。J. Syst. Softw.132，186-203。Nesterov，Y.，一九八三年无约束凸极小化问题的一个收敛速度为O1的方法. DokladyAkademii Nauk SSSR 269，543-547.Ruder，S.，2016.梯度下降优化算法概述。arXiv预印本arXiv：1609.04747。Salinas，D.，Flunkert，V.，Gasthaus，J.，2019. Deepar：使用自回归递归网络进行概率预测。arXiv：1704.04110。Srivastava，N.G.H. 2014. Dropout：防止神经网络过拟合的简单方法。Journal ofMachine Learning Research，15，1929K. Arunachalam，S.Thangamuthu，V.Shanmugam等人沙特国王大学学报6007萨茨科弗，一、2013.培训复发性神经网络（博士）论文）。加拿大安大略省多伦多大学。萨茨克弗岛，巴西-地维尼亚尔斯岛，澳-地阔克湖，2014.用神经网络进行序列到序列学习。神经信息处理系统进展，3104-3112。Syu，Y.，王忠明2021. blueQoS时间序列建模和预测Web服务：一个全面的调查。IEEETrans.Netw.Serv.管理。18，926-944。https://doi.org/10.1109/TNSM.2021.3056399网站。Tieleman ， T. ， Hinton ， G. ， 2012 年。将梯度除以其最近幅度的运行平均值COURSERA：Neural Networks for Machine Learning，26威林，M.，Teh，Y.W.，2011.基于随机梯度朗之万动力学的贝叶斯学习。国际机器学习会议，681-688。怀特，G.，Palade，A.，Clarke，S.，2018.使用lstm网路预测qos属性。在：2018年国际神经网络联合会议（IJCNN），pp。1-8.https://doi.org/10.1109/IJCNN.2018.8489052网站。Xia，F.，中国农业大学，2008.无线传感器/执行器网络中的Qos挑战与机遇。传感器8，1099-1110。https://doi.org/10.3390/s8021099网站。网址：https://www.mdpi.com/1424-822

下载后可阅读完整内容，剩余1页未读，立即下载