时间序列预测中基于核的集成机器的超参数优化方法及效果分析

182 浏览量更新于2023-12-10 收藏 1.7MB PDF 举报

时间序列预测模型

超参数优化

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用16（2022）200142元启发式搜索优化及其在时间序列预测模型梅尔加尼海拉拉计算机科学和信息技术学院，尼罗河谷大学，苏丹阿特巴拉346A R T I C L EI N FO保留字：时间序列预测超参数优化A B S T R A C T近年来，集成学习在时间序列预测中得到了广泛的应用.集合模型的估计精度依赖于超参数的调整。本研究的目的是引入一种新的基于核的集成机器（KBEM），以确定最佳的核结构与微调超参数。使用混合方案的优化方法是在生成集成层的过程中将元启发式搜索和局部权重学习（LWL）相结合。为了确定KBEM方法的效率，利用支持向量回归（SVR）作为集成的基本学习器。案例研究基于六个基准和全球石油消费数据集。最后将该模型的输出结果与当前最先进的调优技术进行了比较，结果表明KBEM在时间复杂度和性能分析方面都取得了明显的优势。因此，KBEM格式可以被视为一种很有前途的方法，自动核正则化和超参数调整的集成模型。1. 介绍在时间序列预测（TSF）中（Miranian和Abdollahzade，2013，Liu和Wang，2016），超参数优化和模型泛化是典型的主要挑战。最佳超参数和适当加权的函数可以以更昂贵的调整成本为代价来最大化泛化性能（Ting和Witten，2011）。本研究旨在将元分析搜索（Gogna和Tayal，2013）与集成学习（EL）（Qiu等人， 2015）以增强具有可接受的准确性和复杂性的多核的功能（Zhang等人，2011年，Ji等人，2017年）。超参数正则化（Chen等人，2014）主要影响学习算法的性能，目前还没有高效的方法来选择最优值。然而，许多学者致力于开发各种优化方法（Kavousi-Fard等人， 2014年，Khairalla等人，2018年，Lacoste等人，2014年）。提到的大多数研究都是手动设置的，而一些研究使用受自然启发的常规算法，例如遗传算法（Hong et al.，2011年）。然而，EL模型像所有机器学习算法（即SVR）一样也会遇到各种问题，例如过拟合，确定最佳超参数值等。（Wilson等人， 2015年）。支持向量回归机的关键问题同样，核宽度、复杂度控制参数和功能损失可能导致执行效果的显著降低（Azadeh等人，2013年，Candelieri等人，2018年）。基于此，SVR的目标函数旨在最小化学习过程中的两个概念。首先是训练误差的概念，它被定义为一个不敏感的损失函数，并根据这个特定的损失函数生成稀疏解。第二个是正则化的概念，它控制模型的复杂性（Faris et al.，2018年）。本文主要研究了近年来受到广泛关注的基于支持向量回归机的集成核函数超参数优化问题。最广泛使用的调优方法是网格搜索（GS），它在具有k倍验证误差的超参数空间上执行穷举搜索技术。显然，尽管它可以被有效地并行化并且看起来是安全的，但是其计算成本随着每个超参数的参数数量和样本大小的增加而增加（Shahrabi等人，2013年）。此外，GS性能对每个参数的网格范围的预设敏感，这在没有先验信息的情况下难以确定。另一项研究没有减少测试误差，而是集中在通过数值校正技术（NOT）减少对泛化性能的预期限制（Chapelle等人， 2002年，Bloom等人，2016年，Keerthi，摩尔例如，2011年）。由于其快速的反应，NOT通常比GS更有效。收敛比然而，这种类型的方法必须适用于误差界是可微的和持续的情况电子邮件地址：mirgani2008@gmail.com。https://doi.org/10.1016/j.iswa.2022.200142接收日期：2021年9月5日;接收日期：2022年8月22日;接受日期：2022年10月13日2022年10月28日网上发售2667-3053/© 2022作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsM. 海拉拉智能系统与应用16（2022）2001422关于SVM中的超参数。还值得一提的是，例如，梯度下降（Bloom等人，2016），五月陷入局部最优并且高度依赖于初始点。也可以应用于SVM超参数的调整。最近，在现代机器学习中有几次尝试来解决具有内核的机器上的可扩展性问题。此外，提高集成性能是非常有价值的研究证据，表明各种泛化方法的既定限制无法与传统的k倍。交叉验证（CV）技术（Blum和Roli，2003），这明确显示了估计范围和实际误差之间的差距（Igel，2014）。为了克服这个问题，非数值优化技术（NNOT），例如GA（Hong等人，2011）、粒子群优化（PSO）（Tewolde等人，2009）和蚁群优化（ACO）（Gao和Wang，2017）已经被用来优化与NOT相关的SVM的超参数。换句话说，他们有更好的全球搜索能力。然而，GA和其他进化算法（EA）（Mobin等人，2018）不能保证会找到问题的最优全局解，但他们往往非常擅长找到“令人满意的好”或接近问题的最优检验。另一个缺点是EA不适合实现优化搜索，但另一方面，由于EA从一组设计而不是不同的结构中搜索，因此在调查解空间时会考虑它们。由于ML模型的超参数空间通常被认为是由于其复杂性，有必要证明核HPO集拟合的合理性。ML优化文献报道了一些与集合优化相关的工作。在这项研究中，一个有效的元启发式搜索方案集成学习KBEM调谐。用于探索搜索空间并使用最佳解决方案来检测可能的值，而LWL搜索算法被认为能够有效地处理GS获得的可能值。此外，还解决了影响超参数局部细化的问题，提出了一种新的超参数集选择方案，以保持操纵误差和补偿误差之间的平衡. KBEM中超参数优化的性能已经在知名的参考数据集和相关工作中得到了证明。实验结果和比较表明，KBEM是一种有效的超参数优化方法。本研究的主要贡献如下：(1) 在这项研究中，我们引入了一个有效的分层集成核机器计划，利用GS算法和LWL算法的全局和局部探索能力的优势，自动发现一个更合适的网络结构，具有更好的超参数调整最终的集成训练。(2) 该算法采用多核函数避免陷入局部最优;采用集成进化算法扩大搜索范围;采用融合搜索算法进一步提高搜索效果;采用LWL技术将KBEM分析计算量降低到可承受的水平。(3) 本文研究了KBEM网络的不同核函数、不同隐层系综、不同超参数搜索空间和网络深度对回归函数的影响。论文的其余部分组织如下。第二节总结了现有的核机器调优方法，并回顾了核方法的最新研究成果。第三节简要介绍了支持向量回归算法的基本原理。第4节描述了所提出的方法的表示。第5节介绍了结果和讨论。第六节介绍了基于最优超参数的KBEM算法在油耗估计中的相关性能.第7节包含KBEM模型与最先进的优化方法的比较。最后，第8节总结了本文的贡献和未来的工作方向。2. 内核机器调优在本节中，我们简要回顾现有的内核机器调优，并讨论最近关于内核方法和EL的工作在过去的几十年里，各种超参数优化方法已经被研究。一般来说，这些方法可以分为以下几类：首先，穷举搜索技术被认为是典型的搜索技术，用于找到最佳参数值的优化方案为给定的学习问题在手。Nemours研究在超参数优化的背景下利用随机搜索，例如SVM算法（Li等人，2016年）。同样，引入了手动检索和随机检索作为用于相同目的的替代方法（Bergstra和Bengio，2012）。这项工作表明，随机搜索是一种特征模式，除此之外，还可以对序列超参数优化算法的改进进行判断（Mantovani等人，2015年）。虽然RS方法易于实现和并行化，但由于在搜索过程中缺乏批判性结果关于穷举搜索方法，网格搜索（Liu等人，2006）广泛应用于搜索方式中，它以固定的步长离散搜索如几项研究所述，进一步的策略，如基于顺序模型的优化（Candelieri等人，2018年，Hutter等人，2011）和贝叶斯优化（BO）（Snoek等人，2012年）似乎是GS在非平凡搜索空间中的更好选择。其次，不包括GD方法（Bloom等人， 2016年）。许多现有的工作集中在NOT用于选择超参数的应用上，例如（Chapelle等人，2002年）。在这项研究中，支持向量机的超参数优化使用GD技术。类似地，作者在（Keerthi，2002）中应用自动技术来选择SVM算法的最佳超参数值。为调谐超参数而执行的其他GD涉及（Moore等人，2011年，Osuna等人，2002年）。这些方法在搜索过程中利用梯度信息，收敛速度快，但容易陷入局部最优。搜索结果的质量很大程度上取决于初始搜索值的排列此外，GD需要特定于应用程序的实现，这不是通用的。基于GD的数值优化方法通过最小化某些广义界（如留一误差界），通常比GS更有效。因此，对于无效搜索策略和扩展搜索，随着时间的推移，在各种研究优化问题中，元分析已经被认为是用于获得可接受的和最佳的超参数调整方法的问题解决方法（Gogna和Tayal，2013，Blum和Roli，2003，Faulin，2012）。正如在（Igel，2014）中提到的，定理证明了没有人可以提出一个解决方案来处理整个优化问题。因此，许多通用的元分析方法已被提出来解决参数优化问题，从改进到现有的技术，提出新的算法和创新的杂交。第三，研究了基于神经网络的超参数整定方法，特别是支持向量机的参数整定方法。例如，在[26]中，提出了一种新的混合参数调整方法，以改善进化优化算法在解决优化问题时的执行测量。NNOT的一个普遍示例是GA（Liu和Wang，2016，Min等人，2006，Liang和Fang，2002，Wu等人，2009年，Shokri等人，2014年）。另一个例子，在优化 SVM 中研究了 POS ，其可以在（ Dai et al. ， 2018 年， Barati 和Sharifian，2015年，Bao等人，2013，Liu等人，2011年，吴，2010年），其他自然动机的元启发式算法，提出了超参数优化报告在几项研究，如人工蜂群（高和王，2017 年，洪， 2011 年），蝙蝠算法（Tavakkoli 等人， 2015年， Tharwat 等人， 2017 ）、磷虾群算法（Stasinakis等人，2016）、蛾焰优化（Li等人，2016），灰狼优化器（MustaffaM. 海拉拉智能系统与应用16（2022）2001423∑2（）下一页（·）{Γ（f（x）-y）=εεfX y⎧⎪⎨ - 我是说 ...+）≤ + i∑.）的。）≥w，b，i，i2=（）（≤ ≤）∈∈i=1我σ算法1元启发式搜索输入：训练数据集;设置超参数范围。输出：具有最优超参数（C，ε和k（λ））的元模型开始流程：1. 迭代C=1到N2.对于核，k→{RBF，PUK，Poly}3.对于ε∈{10-1，10-2，...，10-n}4.计算每个模型F（C，k，ε）5.使用Ei评估6.结束;7.继续下一个ε8.继续下一个K9.结束;10. 继续直至C=N11. 结束;12. 基于Ei给模型赋予13. 基于权重选择最佳模型，以形成基于Ei排名。14. 使用Meta模型从输入X预测测试目标Y未来数据xi的yi值（Vapnik，2013年）。一般来说，回归函数可以定义为：f（xi）=wTΦ（xi）=b（ 1）其中w是权重向量，b是偏置，Φxi将输入向量X映射到更高维的特征空间。w和b可以通过最小化回归风险Rreg（f）来获得，其定义为：NRreg（f）=Ω[f]+CΓ（f（xi）-yi）（ 2）i=1其中Ω[f]是用于控制函数复杂性的结构化风险，Γ是估计经验风险的损失函数，C是预先定义的权衡值（Vapnik，2013）。一般来说，对于SVR，Ω[f]在e1- SVR中表示为w1或在e2-SVR中表示为1 w T w。实际损失函数采用ε-不敏感损失函数，其定义如下：结束进程;0如果|f（（x）-y）|≤ ε|-否则|-otherwise（三）例如， 2015）已经被用来选择用于SVR的最佳参数。SVR的完整优化可以写为：然而，诸如蚁群优化（Zhang等人，2010）、花授粉算法（Hoang等人， 2016年）、min1wTw+C∑n（i+i）社会蜘蛛优化（Pereira等人， 2016），蚁狮优化器（Zhao等人，2016），以及多节优化器（Faris等人，2018年）。虽然，这些NNOT可以防止局部最优问题，并且可以S.t.y if w Tx ibε好吧wTxi+b）-yi≤ε+εi（四）通常达到可接受的最佳值。然而，非数值方法涉及无效的搜索策略，导致降低⎩⎪i，i≥0，i=1，.，n收敛速度快，训练时间长。最后，在系综生成阶段进行超参数整定的思想得到了更多的考虑。在许多研究中，EL解决了学习算法的超参数调整问题，例如（Sun和Pfahringer，2012），它将BO与EL技术相结合，以提高泛化精度。类似地，（Feurer等人，2015）作者在系综生成期间执行超参数调谐。在同一方面（Ji等人，2017），EL结合KF并用于调整和选择特征空间，这是一种用于降低非线性模型高维数的迭代算法。各种研究调查了用于超参数优化问题的混合方法，例如（Miranda等人，2014年）。在这项研究中，元学习技术结合优化技术来选择最佳的SVM参数。在（Zhang等人，2015），作者介绍了一种新的混合方案来优化SVM，在调整后实现更好的性能精度。3. 材料和方法如前所述，在SVR算法的情况下，超参数影响预测模型的预测精度，取决于正则化常数（C）、损失函数ε-不敏感（ε）和核参数（λ），例如，如果C很大，则目标其中，Rai和Rai分别是度量第i点处的错误成本的松弛变量。对于非线性的输入数据集，核函数可以用来从原始空间映射到更高维的特征空间，在其中可以建立线性回归模型。因此，最终的SVR函数被获得为：Nyi=f（xi）=αi-αikxi，xj+b（ 5）i=1其中α i和αi是拉格朗日乘子。最常用的内核函数是：(1) 多项式核函数（Ting和Witten，2011）：k（xi，yi）=（xi，yi）+d）p（6）其中p是核函数的次数，d0是高阶与高阶的影响的多项式中的低阶项（一） PUK内核函数：将经验风险最小化更大的ε将导致k（xi，yi）=1（）2]ω支持向量（SV）数量。如前所述，为了使KBEM参数更准确，该模型利用了合奏调音的好处。因此，第3.1节简要回顾了SVR概念，第3.2节描述了KBEM层。最后给出了算法1中KBEM的计算描述.1+2xi-yi22（1/ω）-13.1. 支持向量回归理论SVR算法（Vapnik，2013）的基本术语是非线性的概念，将原始数据集xi表示为高维特征空间。给定D的N个样本的训练集x i，y i，1我N x iRn表示输入向量，R，de-注意输出。回归的目的是找到一个既能很好地拟合训练数据，又能准确地预测训练数据的函数。[（七M. 海拉拉智能系统与应用16（2022）2001424其中σ是核参数，ω是向量形式的系数。(1) RBF核函数：k（xi，yi）=exp.-γ>x1-y1>x2），γ>0（8）M. 海拉拉智能系统与应用16（2022）2001425∑.）样品（）下一页（）下一页（）下一页联系我们}（）表1符号和记号。符号描述nSV支持向量数Rn输入向量样本R输出向量样本（x，y）训练集中f（x）x的拟合值N数据集Φ（xi）输入的特征支持向量回归函数bSVR函数r（·）损失函数Rreg（f）回归风险函数多项式核知识，其中多层方法用于增强，包括：在优化过程中使用多个内核集合。具体来说，KBEM模型从不同的初始集合运行，并在几个分析步骤后迅速收敛。其目的是处理局部最优问题，集成进化，以扩大搜索范围，进一步搜索的全局最优值，通过使用每个试验的验证结果从不同的出发点; LWL的集成融合，以提高集成的代表性。在一些计算描述中，TSP的KBEM机制可以按照以下步骤进行说明3.2.1. 内核生成层首先，建模的数据集被随机化并分成两个集合（训练集和测试集）。生成的输入空间为PUK基于Pearson VII函数的通用内核径向基函数核Xt=（Xt-n，Xt-（n-1），.，x t），其中x t是时间t时的系列速率。如果我们..不敏感损失函数中的k的值C正则化常数因子d多项式函数的核次数的值PUK核函数中sigma的值γRBF核函数中的gamma值slack变量回归超平面αi，αi拉格朗日乘子k（xi，yi）核函数其中γ是核参数，exp表示指数函数。这个问题可以转化为对偶优化问题，其解由下式给出：nSVf（x）=αi-αiK（xi，x）（9）i=1S.T.预测下一个m阶矩速率yt=xt+m。训练集可以被绘制为D=（（X1，y1），（X t，y t），.，（X n，y n））; n是训练的大小其次，用目标函数、集合宽度和ε-不敏感对核函数进行初始化。TSP要求在训练数据的基础上建立准确的预测，计算速率指标，揭示未来指标的变化趋势。预测函数解释如下：y t+1= f（x1，x2，...，（10）其中y t+1表示下一个速率，而x1，x2，.，xt是输入样本。3.2.2. 调谐层在调整层中，采用元启发式搜索方法从搜索空间范围内得到一个符号超参数值。在GS过程中，基学习函数SVR（C，ε，k（λ））超参数在核{Poly，PUK，RBF}的调谐范围为C range（ 1：n），ε∈ {10- 1，0≤αi≤C，0≤αi≤C，其中nSV是支持向量（SV）和内核函数的数量（Vapnik，2013）。表1中解释了SVR算法的所有符号和标记。3.2. 基于核的嵌入机方法在本节中，我们将重点介绍所提出的算法的详细描述，KBEM方案（见图1）被提出来自动确定连续空间中的最佳参数，而无需任何先验知识。10-2，...，10-n。C、λ构成一个二维动态网络。通过在该动态网络中搜索最小MAPE来确定最佳参数C、λ，如下：(1) 考虑一网格空间的（C，λ）， log2C {1： 1000}且log2λ10 E-5：10 E6.(2) 对于每个超参数对C，λ在搜索空间中对训练集进行5折交叉验证(3) 选择参数C，λ使CV误差预测率最低。M. 海拉拉智能系统与应用16（2022）2001426图1. KBEM方案M. 海拉拉智能系统与应用16（2022）2001427M=联系我们=（）∑=1∑（-）（ -）ii-1i-1n|yi|表2数据集描述。表3所有KBEM模型的各种评价方法的总结(4) 使用最佳超参数创建一个模型作为精确的基础学习器。3.2.3. 集成层首先，进行元启发式搜索以选择具有良好性能的候选集成。根据调查结果，该计划保持适当的学习者在池中，删除弱的，并产生新的学习者随机保持一个常数的总集成。为下一次搜索分析准备更新结果其次，局部权重学习（LWL）用于最终权重和融合。融合搜索通过从好的集合中梳理出有代表性的搜索方向，从而挖掘出更多的潜在空间，以容纳最优解。基于元启发式搜索的结果进行融合搜索以进一步探索。候选者从具有良好集成的池中选择，并被视为LWL的基础模型，然后进行融合以进行权重分析。最后，LWL函数通过测试集进行良好的训练，以结合从选定的学习者获得的结果。各种学习器的每个集合被分配有估计权重，该估计权重由如下的融合函数实现D597.19 17.8 1.80 13.02D699.31 21.5 1.79 0.05Avg.95.7120.451.792.23注：粗体数字表示最佳值。表2中列出了这些数据集的基本信息，包括符号、数据集名称、时间戳类型、时间段、总大小、用于训练和测试的实验中使用的样本数据的大小。4.2. 预测方法具体而言，这一程序包括三个部分。第一部分是训练部分，用于训练模型和更新模型参数。第二部分是验证部分。我们使用它来调整超参数并获得最佳模型设置。最后是测试部分，我们使用最优模型来预测石油消费数据。4.3. 评价矩阵wi（x）=exp（vix+vi0）∑j1ex p.vjx+vj0）（十一）本小节描述了不同模型的评估的几个方面;评估方面包括错误率的估计和集成基础学习器的多样性度量其中xx1，x2，x3，...，xn表示输入数据，fi x是第i个基本模型，M是基本模型的数量。的参数vi，vi0我一，二，三，M通过以下方式获得：minλ<$w<$+（F（x）-y）24.3.1. 业绩计量关于性能误差估计，使用平均绝对百分比误差（MAPE）作为实际值和预测值之间的一般化标准，并作为以下方面的准确性指标：2FS. t. w ≥0（十二）所有的预测方法。效率以百分比表示值，并计算如下：融合函数是MMAPE100∑n （yi-yi）（14）i=1f（x）=wi fi（x）（13）i=14. 实验设计4.1. 实验数据描述在本节中，基于分析超参数对最终性能的影响来评估所提出的KBEM算法从（www.kaggle.com）下载的基准数据集包括美国航空乘客、韩元兑美元汇率、纽约市汽油零售价格、IBM股票时间序列、美国电力消耗和黄金价格，所有数据集的描述如下方向准确度（DA）提供预测方向的正确性的指示，较大的值表示更好的预测性能。其定义如下，nDAI YYY中文（简体）ni=1其中yi是实际值，yi是预测值，I（x）=如果x>0，则I（x）= 0。<4.3.2. 相似度量多样性测量已被用来找出发生在合奏。学习者之间的相似性或多样=符号数据集时间期间大小火车测试模型数据集评价矩阵XD1航空旅客每月194914410143DA%EDMAPE%T-时间（秒）到MLKM-聚乙烯D192.3637.13.43 0.031960D284.2236.32.68 0.12D2EX变化每日2002458432091375D386.7532.23.18 0.05率到D493.8934.02.00 0.092017D590.8231.22.14 14.00D3汽油价格每周2000901631270D691.3633.12.60 0.04到Avg.89.9033.982.67 2.392012MLKM-PUKD193.5232.12.43 0.02D4IBM股票每日200532722290982D284.2229.62.58 0.13到D393.8326.23.13 0.042017D491.8921.32.01 0.06D5电动小时200214320710024542962D594.9427.42.11 11.01消费到D692.5831.22.62 0.032018Avg.91.8327.972.481.88D6金价每周201324717374MLKM-RBFD193.0529.11.380.02到D292.8819.41.950.152017D395.1816.31.870.06D496.6218.61.920.08M. 海拉拉智能系统与应用16（2022）2001428性的几种衡量标准M. 海拉拉智能系统与应用16（2022）2001429}联系我们图2. （a）多项式函数;（b）不同特征空间映射的SV数。已提出本文的工作只是想揭示相似性与调音模型之间的关系。最全面的衡量标准是欧几里得距离（ED），它在这里用来衡量两时间序列间距离q1，q2，...，Q n 和Ss1，s2，...，sn，通过计算序列中每个点之间的差来测量的距离，其定义如下：√̅∑̅n̅̅̅̅̅̅̅̅̅̅̅ ̅5.2. KBEM超参数调整在这个实验中，我们使用GLWS调谐方案的无限制参数。我们必须为这些参数选择适当的范围，在基于KBEM的Poly、PUK和RBF核的情况下，将是正则化常数（C）、损失函数ε-不敏感（ε）和核参数（λ）。D（Q，S）=i=1（qi-si）2（十六）不同的测试/训练比，用于每个参数组合的10倍CV，并为参数的精确组合的10次运行5. 结果和讨论5.1. 预测准确度测试每个模型的预测准确度测试结果见表3。结果包括在不同内核条件下的基准测试数据。在表中，每一列显示了一个评估矩阵指标中的预测性能测量。简而言之，如表3所示，KBEM-RBF模型的预测值和实际值之间的MAPE为1.79%，相对准确度DA为95.71%，这清楚地表明RBF内核提供了较差的结果，并且在KBEM的训练中花费了2.23秒。关于同一方面，我们可以观察到KBEM-PUK模型在运行时间和DA方面都优于KBEM-Poly模型（1.89秒，2.39 sec和91.83，89.9）。然而，值得一提的是，与其他模型相比，KBEM-Poly模型的性能较差。使用ED测量实际数据和预测数据之间的相似性，如表3所示; KBEM-RBF模型得分20.45，这是小的，表明预测性能最好，而KBEM-PUK模型得分27.97和KBEM-Poly模型得分33.98是模型之间最差的相似性5.2.1. 核参数（λ）变化对回归函数的影响在这一小节中，我们使用了Poly、PUK和RBF核，我们需要分别为（λd，γ，σ）找到一个最优值，这是核函数的值。直观地，核参数λ值是所选SV的影响程度作为图2的总结，图3和图4示出了在以下情况下各种核参数值（d，γ，σ）的结果：C=10，ε=0：001。图2（a）解释了（λ）导致训练数据的过度拟合，而增加（λ）的值会使训练数据欠拟合。在图2（b）中，在过拟合情况下存在更多SV，而在欠拟合情况下存在更少SV。基于上述结果，如果核参数λ的值很低，它将只能封装特征空间中非常接近的那些点，另一方面，如果（λ）很大，SV将影响远离它们的点。可以认为核参数控制着超平面分离过程的形状。因此，（λ）越小，就越有可能获得更多的SV（对于某些C和ε值）。（见图2、3、4）。5.2.2. 正则化常数C对回归函数在本小节中，我们研究正则化常数C的影响，它决定了模型复杂性（平坦性）之间的权衡。大于ε-不敏感（ε）的偏差的程度被接受图3.（a）PUK函数的核参数（λ <$σ）对回归函数行为的影响;（b）不同特征空间映射的SV数。M. 海拉拉智能系统与应用16（2022）20014210=-=（）下一页（）下一页（）（）（）下一页（）==图4.在不同的特征空间映射下，（a）RBF函数（b）SV的数目对回归函数的行为的影响。图5. 正则化常数C对（a）回归函数（b）SV的影响。图6. 损失函数参数对（a）回归函数（b）SV为了制定优化，例如，如果参数太大（无穷大），此时的目标是不惜一切代价减少误差，直到达到最小水平（见图5）。如图5所示，各种C范围（C1至100）的结果，其中核参数γ10和ε0：001。图5（a）解释了较小的C值会导致训练数据的过度拟合，而增加C值会导致训练数据的欠拟合，如图5（b）所示。MAPE率解释了随着C的增加，SV的数量略有减少。5.2.3. ε-不敏感（ε）对回归函数的影响在这一小节中，我们研究了模型训练时ε-不敏感参数（ε）的影响，在距离yi的距离ε内预测的点没有惩罚。较小的ε值更接近训练数据。由于ε控制不敏感误差区的大小，因此，它可以直接影响SV的数量。通过增加ε，我们可能会得到更少的SV，但可能会产生更低的估计值（见图6）。作为图5的证据，在核参数γ10和C10的情况下，各种ε。在（a）中，MAPE不受ε的影响，如（b）中所解释的，支持的数量随着ε的增加而急剧减少。5.3. KBEM参数在上述实验的基础上，根据测试集结果选择核参数（λ）、正则化常数（C）和ε-不敏感。在本节中，根据准确性度量（MAPE）指标、过拟合和欠拟合情况以及关于基于KBEM的所有核的SV的数量，进一步讨论所有超参数的敏感性。在核宽度（λ）的情况下，图2-4 （a）给出了不同核参数（λ）值下KBEM的MAPE，当C和ε固定为10时，分别为0.001。结果表明，随着（λ）值的增大，训练集上的MAPE值增大。另一方面，测试集上的MAPE最初减小，但随后随着（λ）的增加而增加。这表明宽度（d，γ，σ）太小的核值=M. 海拉拉智能系统与应用16（2022）20014211=-（）下一页（）下一页（）下一页（）下一页（）下一页图7.（a）实际与预测数据（b）基于KBEM的推广误差-各种内核图8.示出了各种KBEM-all核模型在（a）预测率（b）泛化误差（c）中的10次预测性能（0.1-10 - 3）导致过拟合，而核宽度（d，γ，σ）的值太大（即100-100，000）导致模型训练欠拟合。从上述实验中观察到的（d，γ，σ）的合适值在1到100之间，在这方面，可以得出结论，核宽度（d，γ，σ）对KBEM算法的泛化性能起着至关重要的作用。此外，图2-4（b）表明，SV的数量随着初始点的减少而减少，然后随着宽度（d，γ，σ）的增加而增加，因为大多数训练数据点在过拟合和欠拟合情况下收敛到SV。在正则化常数（C）的情况下，图5（a）表明各种C值和其他参数的结果分配给固定的权重，例如内核宽度（λ）10和ε不敏感0.001。可以观察到，随着C权重的增加，训练误差同时减小。在对比效应中，当C从0.1增加到10时，测试误差减小，而当C从10增加到100时，测试误差保持一个近似的恒定值然而，当C增加到100以上时，它又开始增加。C的小值将导致训练欠拟合的原因是因为位于训练数据上的权重太小，从而导致训练和测试中的大量误差值。相反，当正则化常数C的值太大时，训练集将被过度拟合，这个问题导致KBEM泛化性能明显恶化。在这种情况下，C的适当选择将在10和100之间。随着C的增加，SV数量略有减少，见图5（b），由于拉格朗日系数的SV数|ai-ai|=C降低根据C权值的增加，在ε不敏感的情况下，图7概述了同时具有各种损失函数ε的KBEM的结果，其中（λ）和C分别固定为0.001和10。通过ε影响的结果，如图5（a）所示，MAPE率在训练和测试中平行增加时非常稳定，此外，ε值的相对变化对错误率没有影响。这证明了KBEM性能对损失函数参数（ε）的变化不敏感。表4基于KBEM的核模型参数优化.超参数范围Poly PUKRBF正则化常数（C）1-1000 1.0 100 90ε不敏感（ε）0.1：10E100.002 0.001 0.02核参数（λ）10 E-5：10 E6d= 3.0σ=0.85 γ= 0.04然而，SV数随着ε值的增加而同时减少，特别是当ε大于0.01时，如图所示。在图5（b）中，这与实验中获得的输出一致，该输出表明SV被认为是损失函数的递减（ε）。6. 优化模型预测在这一节中，我们几乎使用具有最佳超参数值的KBEM来解决如何估计油耗（OC）的问题。全球能源消耗数据集可在网站上获得：（www.bp.com）该数据代表世界总能源石油、天然气、煤炭、太阳能、电力和可再生能源等）;为了进一步评估KBEM方案的稳定性，使用具有最佳参数的各种内核在1-ahead和10-ahead水平预测中检查了所有模型，如图8和表4所示。在本节中，进一步讨论了根据准确性能、水平周期以及关于基于知识边界元法的所有内核都被研究。本实验中列出的所有模型都产生了一些有趣的混合结果，为了更好地解释结果，使用评估标准（即，MAPE、DA、ED和T-时间）。在准确性的情况下，图8（a）中很好地解释了所有基于KBEM的所有内核在10个提前水平上的预测结果。根据图8（b）中所示的每个模型的MAPE评分，结果表明基于KBEM的RBF具有最佳性能，其次是基于KBEM的PUK，最弱的模型是基于KBEM的M. 海拉拉智能系统与应用16（2022）20014212表5具有不同核函数的KBEM在OC数据上的10-提前预测性能模型MAPE（%）超过10-Ahead水平。平均1-提前3-提前5-提前7-提前10-提前KBEM-聚乙烯0.55 0.91 0.94 0.94 1.15 0.91KBEM-RBF0.11 0.12 0.12 0.14 0.19KBEM-PUK 0.49 0.58 0.60 0.61 0.62多项式此外，表5中的具体细节表明，基于KBEM的RBF模型的MAPE值在1步前预测中为11%，在10步前预测中为19%，这优于基于KBEM的Poly和PUK模型。同样，在短期预测步骤中，当将基于KBEM-RBF与其他模型进行比较时，观察到更好的性能，结果表明基于KBEM-RBF在所有情况下都优于KBEM-Poly和PUK模型。在方向精度的情况下，高水平精度不一定表示预测方向的高正确性。准确的预测方向对于决策者设计计划策略非常重要，例如在石油相关操作中（生产、价格和需求）。因此，DA比较是必要的，在图9（a）、（b）和（c）中，可以概述关于DA标准的一些观察结果：7. KBEM模型与现有优化方法的比较此外，为了在本实验中实现稳健的验证KBEM模型，使用基准数据集和七种最新的文献优化算法进行评估，即， GS、BO、GD、PSO、GA， BAG和EnKF。为了保证公平的比较，除了评估矩阵X（即，DA、ED、MAPE、T-时间），所有方法的输出示于表7中。在所有的模型中，可以适当地看出，KBEM具有更高的预测性能，更好的泛化能力和更低的预测误差比其他优化方法。结果表明，KBEM在学习过程中的超参数优化方面优于GS、BO、GD、PSO、GA、BAG和EnKF。另一方面，基于BAG和EnKF的集成优于GS，BO，GD，PSO和GA方法，这支持了我们在本研究中使用集成层的想法，在相同的上下文中，GS优于BO，GD和PSO。此外，时间复杂度也是衡量模型效率的重要指标.很明显，如表7所示，使用基准方法的优化过程比KBEM消耗更多的时间，表6OC数据的KBEM模型之间的评估矩阵总结模型评估矩阵X评分索引等级在所有情况下，基于KBEM的RBF模型的表现明显优于所有其他模型，其次是基于KBEM的PUK模型，T-时间MAPE（%）ED DA12（%）然后用最差值建立KBEM-based Poly模型。KBEM-based RBF模型和KBEM-based PUK模型的DA值在1步预测中相似度为92.31%，在平均10步预测中具有90.98%的优越性。KBEM-聚KBEM-RBFKBEM-PUK0.05 0.39 76.42 89.35 5 30.02 0.18 34.50 90.980.03 0.35 68.11C、ε值的增大或减小对DA的影响不大。核参数（λ）对拟合精度有影响，在过拟合和欠拟合情况下，λ均减小，而在平衡拟合情况下，λ有较大的DA值。上述最终结果概述于表6中。一般来说，使用GLWS调整超参数显著提高了KBEM模型的泛化能力。此外，为了获得稳健的结论，我们在表6中总结了每个模型的所有测量分数，很容易发现基于KBEM的RBF核模型是所有预测范围内OC预测的最佳模型（即，一步和10步），与本实验中考虑的其他模型相比。在一般情况下，基于KBEM的RBF模型不仅完成了最高的精度水平估计，这是衡量的MAPE标准。此外，它还获得了最高的命中率，在定向精度估计的DA准则。而基于KBEM的Poly核模型的预测效果最差。因此，我们的研究结果同意，KBEM-RBF具有最好的预测四个模型。1分：每个模型的（1-3）秩值之和取决于相关度量中的平均值。2根据总得分为每个模型排序值，例如，排名第1表示第一个模型。表7KBEM与最先进的优化方法。调整方法评估矩阵XDA%ED MAPE%T时间索引排名GS-SVR87.735.78.5112.808BO-SVR90.829.68.1021.024GD-SVR91.827.28.0412.892PSO-SVR88.931.38.3117.255ga-SVR86.237.38.6113.817BAG-SVR89.730.58.136.403EnKF-SVR85.538.18.637.326KBEM *95.7120.451.792.231注：* 表示建议的方法;粗体数字表示最佳值

下载后可阅读完整内容，剩余1页未读，立即下载