多季节时间序列零售流量高精度长期预测研究

148 浏览量更新于2023-12-09 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1/1二--数据科学与管理5（2022）137审查具有多个季节性的间歇时间序列小时零售顾客流量的长期预测MartimSousa*，AnaMariaTom'e，Jos'eMoreiraIEETA/DETI，阿威罗大学，阿威罗，3810-193，葡萄牙A R T I C L E I N F O保留字：多步预测尺度无关性能度量TBATS加权平均集合ProphetA B S T R A C T在这项研究中，我们解决了一个要求很高的时间序列预测问题，同时处理以下问题：（1）间歇性时间序列，（2）多步预测，（3）多个季节的时间序列，（4）多个时间序列模型选择的性能指标目前的文献分别处理这些类型的问题，没有研究同时处理所有这些特征为了填补这一知识空白，我们首先回顾了与本案例研究相关的所有必要的现有文献，目的是提出一个能够为这样一个复杂问题实现足够预测准确性的框架。一些改编和创新已经进行，这是标记为文献的贡献。具体而言，我们提出了一个加权平均预测组合的许多尖端模型的基础上，他们的样本外的表现。为了收集强有力的证据，证明我们的集成模型在实践中有效，我们对98个时间序列进行了大规模研究，采用无偏见的性能指标进行了严格评估，其中将一周的季节性天真设定为基准。结果表明，该集成模型具有较高的预测精度.1. 介绍劳动力优化是一个活跃的研究课题，因为它确保了公司人员成本的不可忽视的降低（Talarico和Duque，2015）。此外，根据许多国家的法律，零售工人必须提前一个月通知他们的工作时间表为了做到这一点，管理人员通常需要下个月的每小时预测，以制定共同的决策任务，如时间表和工作轮班计划。毫无疑问，这种决策在很大程度上取决于这些预测的误差;因此，制定稳健的策略以尽可能减少误差是关键。零售客户进入时间序列通常间隔不均匀;也就是说，考虑T<$fti;xigN一个时间序列，其中ti表示其时间戳，xi是相应的值，|ti1我不是|i对于每个i {1，2，...，N}并不总是相同的 1}。这是因为，商店关门时间。零售商店可能在星期日全天关闭即使在工作日，零售店也不是24小时营业，它们从上午8点开始按给定的时间表营业到晚上8因此，如果我们按照预期以每小时一次的频率聚合时间序列，那么当商店开门时，我们的时间序列将均匀分布，但与商店开门时的时间序列相比，最后一次商店关闭，直到重新开放。如果关门时间是晚上8点到早上8存在12小时的间隙。我们如何应对这些差距？这会对模特们造成威胁吗？这个问题的独特性来自于这些令人兴奋的问题。此外，商店的每周时间表可能会随着时间的推移而这是另一个需要克服的重大障碍模型如何应对时间表的突然变化他们可能正在学习数据，这些数据的时间表不再有效，从而对预测产生负面此外，小时零售客户流量时间序列表现出复杂的季节性模式。每日、每周、每月和每年的季节性在这种类型的时间序列中同时哪些类型的模型可以调整到这样苛刻的季节性特征？另一个问题是如何处理整个月的大预测范围考虑到预测的兴趣月份为30天，即，720小时，我们面临着一个720步的预测问题。广阔的预测范围通常代表着巨大的预测不确定性。本研究旨在回答上述问题，以及如何在这种不利的情况下实现有竞争力的预测精度。为了实现这一目标，我们利用文献中的现有策略，同行评议由Xi交通大学负责* 通讯作者。电子邮件地址：martimsousa@ua.pt（M. Sousa）。https://doi.org/10.1016/j.dsm.2022.07.002接收日期：2022年5月20日;接收日期：2022年7月1日;接受日期：2022年7月3日2022年7月16日在线发布2666-7649/©2022 Xi'an Jiaotong University.出版社：Elsevier B.V.代表科爱通信有限公司公司这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表数据科学与管理杂志主页：www.keaipublishing.com/en/journals/data-science-and-managementM. Sousa等人数据科学与管理5（2022）137138在适当的情况下进行调整，并对包括98个真实零售时间序列的数据集进行了大规模研究，该数据集包含2015年1月至2019年11月的信息。我们的实验研究证实了我们先前的看法。在这种不利的情况下取得良好业绩的最佳方法是以巧妙的方式将不同模型的预测没有一个单一的模型或策略可以验证前面的每一个要求。因此，我们提出了一个强大的集成模型组成的知名模型在文献中，每个模型检查至少一个要求。为了证明上述集合模型是有价值的，我们将季节性天真周作为基准。这似乎是一个简单的任务，但一个星期的季节性天真是很难击败，和客户流量是高度季节性的零售。所提出的集成模型不限于我们的案例研究，它是适用于类似的问题，即，复杂的和间歇性的时间序列与多个季节。在本文中，小写字母x表示标量，粗体小写字母x表示向量，大写字母X表示矩阵X。本文的其余部分组织如下。第二节回顾了类似的研究，并介绍了我们的贡献。第3节提供了必要的理论背景，并对第2节所讨论的内容进行了更深入的探讨。具体而言，它简要描述了在多步预测场景中的几种预测策略，介绍了在具有复杂模式的时间序列中进行预测的尖端模型，并介绍了我们的创新。第4节描述了数据集和建议的预测架构，展示了结果，并讨论了我们的研究中收集的经验证据。最后，第5节提出了主要结论，缺点，并讨论了今后的工作方向。2. 文献综述本研究建立在（1）间歇性时间序列模型，（2）多步预测策略，（3）多个季节周期模型，（4）间歇性时间序列的尺度无关性能指标，（5）客户流量预测。2.1. 间歇时间序列一些研究人员对不均匀间隔的时间序列进行了研究，也称为不规则时间序列。预测不规则时间序列的一种可能的方法是将我们的时间序列视为连续的，并使用随机微分方程（Stochastic Differential Equation）（Iacus，2008 ）对其进行建模。一些短期预测应用已经成功地使用了 SDES（ Iversen 等人， 2014 ， 2016; Mahrouf 等人， 2021; Tahmasbi 和Hashemi，2013）。然而，除了难以实现和数学沉重的许多预测从业者，空间微分方程是不可靠的广泛的预测视野。此外，随机微分方程需要一个给定的随机模型假设，该假设可能对我们的训练数据是可调整的，但可能推广得很差。 Cipra和Han z'ak（2008）提供了一种替代的方法来处理具有不规则观测值的单变量时间序列的指数平滑型方法。 Costa等（2021）设计了AutoFITS ，这是一种用于不规则时间序列的自动特征工程策略。AutoFITS从原始数据中提取时间序列特征;因此，可以从基于表格的模型中获得预测。另一种方法是时间聚合。时间聚集是一种尝试通过在较高水平（即较低频率）对观测进行分组来预测不规则时间序列的技术在此范围内，Nikolopoulos et al. （ 2011 ）引入了聚合 - 分解间歇性需求方法（ADIDA）。简单地说，ADIDA在更高的水平上（即，更低的频率）聚集观测值，从而减少总体方差，然后使用任何标准预测方法（如单指数平滑）来产生预测。接下来，应该使用某种启发式方法将预测分解为原始大小的更高频率时间聚合的缺点是信息的丢失，因为使用较低的频率必然意味着较少的观察次数。最近，Zhuang et al. （2022）提出了一种组合预测方法。总之，他们首先利用一个二进制分类模型来预测需求的发生;如果是这样，他们使用回归模型来预测需求。此外，他们优化了验证集中的分类模型，在给定曲线下面积（AUC）的验证数据集中寻找一般来说，如果不均匀的空间是由缺失的信息造成的，最常用的方法是使用简单的策略来替换它们，例如(1)平均值，（2）向前或向后填充，以及（3）插值。然而，如果这种信息的缺乏对案例研究有价值，建议用零填充这种方法的主要缺点是实时序列的失真和方差增加尽管如此，这是我们通常必须做出的牺牲，因为大多数预测方法都是基于等间隔的时间序列。如果我们用零填充缺失的观测值，我们可能会得到一个间歇性的时间序列。间歇性时间序列是指观测值可以在很长一段时间内为零的时间序列。预测间歇性需求（如备件）的最广泛使用的方法是Croston然而，它已被证明是积极的偏见（Syntetos和Boylan，2001年）。这种偏差导致产生所谓的克朗斯顿变体（Syntetos等人， 2005; Teunter等人， 2011年）。尽管间歇性需求预报在文献中取得了很大进展，但上述策略忽略了多海声性和多步预报。我们的案例研究有两2.2. 多步预测策略多步预测是一项具有挑战性的任务，并一直是一个活跃的研究课题。与一步预测不同，多步预测必须处理误差的积累和不断增长的不确定性（Sorjamaa等人， 2007年）的报告。目前文献中提出的最基本和最广泛使用的多步预测策略是递归策略、直接策略和多输入多输出（MIMO）。递归是最简单的策略，它依赖于单输出模型，其中预测递归地作为输入。因此，它严重地受到错误积累的因此，设计直接策略是为了避免错误的积累;然而，这种策略为每个目标建立了一个独立的模型，因此，计算成本迅速上升，随机依赖性丢失。一些作者试图将这些策略结合起来。Sorjamaa和Lendasse（2006）表明，当在两个基准数据集中使用K-Nearest Neighbors（K-NN）模型时，DirRec优于递归和直接策略。随后，Ben Taieb和Hyndman（2012）提出了一种矫正策略。该策略使用递归策略来生成预测;随后，使用直接策略对预测误差他们的实证研究评估了用于M3和NN 5比赛的数据，并证明了K-NN模型的纠正策略优于直接和递归策略。尽管在单输出策略上做出了这些值得称赞的努力，但依赖于多输出模型的策略通常更优越（Taieb等人， 2012; Xiong等人， 2013年）。 MIMO（Bontempi，2008; Bontempi和Taieb，2011），以前被称为联合战略（Kline，2004），有效地解决了单一输出战略的困难。但是，它的缺点是使用相同的模型结构来预测每个时域值。这个缺点导致了直接多输入多输出（DIRMO）的产生（Taieb等人， 2009年）。然而，尽管有这些优势，并不存在普遍的优越策略。事实上，An和Anh（2015）表明，在使用神经网络时，单输出策略DirRec始终优于其他已知的多输出策略，以实现更好的性能，包括MIMO和DIRMO2.3. 多季节周期模型季节性自回归综合移动平均（ SARIMA ）（ Hyndman 和Athanasopoulos，2018）和Holt-Winters（Holt，2004;M. Sousa等人数据科学与管理5（2022）137139×¼Winters，1960）被广泛用于季节性时间序列，但它们被设计为只处理单一的季节性。Taylor（2003）扩展了Holt-Winters指数平滑方法来处理第二个季节分量。尽管有这些显著的改进，但一些应用需要能够处理多个季节周期的模型;因此，两个不同的季节周期是不够的。到目前为止，TBATS、BATS和Prophet已经是多个季节性的最值得注意的模型（De Livera等人，2011; Taylor andLetham，2018）。TBATS是该模型关键特征的首字母缩写，即三角函数、Bo X-Co X变换、自回归积分移动平均（ARMA）、趋势和季节分量。BATS可以看作是对以往的指数平滑方法的推广，它结合了ARMA误差修正和BOX-COX变换。尽管解决了多个季节性问题，BATS唯一地接受整数季节周期。 TBATS通过接受非整数季节周期来改进BATS。这是accom-plished使用三角函数项的傅立叶级数。同样，Prophet利用傅立叶级数来管理非整数季节周期;然而，Prophet有一个组件来建模假日或特殊事件，并作为曲线拟合模型，而不是同化数据的时间依赖结构。先知作品对我们的案例研究非常感兴趣，因为它们可以模拟任何不规则的时间序列，因为它们在连续域上工作，并通过允许多个非整数季节周期来应对多个季节性2.4. 间歇时间序列的尺度无关性能测度选择正确的性能指标来评估跨多个时间序列的预测模型并不像看起来那么简单许多预测从业者在选择无偏绩效指标时会遇到困难，导致模型选择不佳。Hyndman（2006）发表了一篇关于这个主题的全面文章。首先，他解决了尺度相关的性能指标，如平均绝对误差（MAE）或均方根误差（RMSE）。这些性能指标在比较单个时间序列的不同模型时表现出色，但它们很难解释，并且不适合多个时间序列。其次，百分比误差，如平均绝对百分比误差（MAPE）或对称平均绝对百分比误差（sMAPE），尽管是尺度独立的和直观的，要么遭受不对称的行为或惩罚过度预测不同于预测不足。此外，MAPE和sMAPE与间歇时间序列不兼容，因为除以零会导致未定义或无穷大值。平均反正切绝对百分比误差（MAAPE）（Kim和Kim，2016）是一种为间歇性时间序列量身定制的百分比误差性能指标，因此除以零不再是一个问题，但之前讨论的MAPE和sMAPE的警告仍然适用。第三，Hyndman（2006）分析了相对性能度量的使用，即测试模型和基准模型的规模相关性能度量在长预测期的情况下，相对性能指标几乎没有任何缺点，因为它们与尺度无关，易于解释，对称，并且对过度预测和预测不足同等处罚。但是，如果预测范围较窄，相对措施可能导致错误的结论.最后，Hyndman（2006）提倡使用平均绝对标度误差（MASE），并将其作为标准性能测量。MASE的灵感来自于相对性能指标;然而，MASE使用基线模型的样本预测误差，使其成为一个适当的性能指标，无论预测范围大小。2.5. 客户流量预测迄今为止，关于客户流量预测的文章很少. Abrishami和Kumar（2018）使用长短期记忆（LSTM）、随机森林（RF）、多层感知器（MLP）和先知（Prophet）预测了全球超过65家商业商店的每日客户入口。美国他们使用在（Christ等人，2016年，取得了具有竞争力的成绩。Cortez等人（2017年）预测了三个类别（所有面孔，女性和男性）的每日客户流量，这些数据来自一个试点项目，该项目使用数码相机和面部识别系统来检测体育商店中的脚流量。利用支持向量机（SVM）、具有周周期的Holt-Winters模型以及结合两种模型的混合模型对上述类别进行预测。Ma and Fildes（2020）使用第三方移动支付间接预测客户流量。Junior等人（2021）使用LSTM和Prophet预测未来28天每小时和半小时的客户端条目。尽管有一些相似之处，但我们的问题非常困难和独特。因此，在我们的案例研究中，单独使用上述方法不足以实现良好的预测精度。2.6. 贡献这项研究引入了几个创新：（1）一种新的多步预测策略，我们称之为seasonal递归，（2）一种无分布的在线季节性z-score离群值检测算法，以及（3）通过平均来处理多个季节性周期的季节性天真的推广此外，在回顾文献后，我们得出结论，没有论文处理间歇性时间序列与多个海洋周期在多步前进的情况下。也就是说，如上所述，在这些领域已经开展了广泛的工作，我们显然依赖这些工作;然而，迄今为止，还没有任何文件将这些工作结合起来讨论。此外，许多从业者使用的绩效指标存在理论和实践问题，导致关于模型选择的误导性结论。本研究旨在填补这一空白。为了实现这一目标，我们从各种文章中收集知识，并对真实数据进行了大规模的实证研究，从实用的角度比较了不同的策略和模型。正如我们将在前面演示的，（2）和（3）可以应用于具有多个季节性的时间序列，通过添加许多不同的季节周期或通过提供是最小周期的倍数的季节周期。例如，如果一个小时时间序列表现出每日、每周、每月和每年的季节性，我们可以将它们分别建模为24、168、672和8736的倍数。请注意，不要添加与较低周期相冲突的季节性周期，这一点至关重要例如，一个月的季节周期为30.524732，就可以抵消一个周的季节周期为168.3. 理论背景本节简要介绍了实验部分中使用的预处理步骤、训练策略、模型和性能指标，并在适当时回顾了文献3.1. 预处理在选择最合适的模型之前，最好先收集有关数据的见解，并在有利的情况下检测和处理离群值。在零售业，众所周知，在假期，大规模的促销活动和附近的活动，客户流量飙升。天气和宏观经济动态等其他特征也可能影响客户流量。然而，这些功能并不总是注册，特别是对于小企业。事实上，添加新功能并不一定能确保更好的预测，因为底层结构的复杂性会增加。这些不寻常的抵达人数，无论是高还是低，都不能被忽视，因为使用奇怪数据的喂养模型通常会导致预测不足。因此，一旦检测到异常值，就应该使用插值、平均值、模型预测或任何其他有意义的策略，用更方便的值替换。M. Sousa等人数据科学与管理5（2022）137140þ：^bJ¼ ðÞ2半] ¼ ðÞJK1/1f1/1是与s和k相关联的离群值索引集。3.1.1. 在线季节性z得分离群值检测据我们所知，尽管下面的算法简单直观，但这是第一个提出这种方法的研究该算法是分布自由的，非常有效地检测季节性时间序列中的异常值。虽然不是强制性的，但我们建议提前从时间序列中删除趋势（如果不是平稳的），以最大化算法效用。该算法的步骤如下：算法1. 在线季节性z得分离群值检测输入：[x1，x2，输出：O（异常值索引集）1：O¼N2：i←ks13：当i≤N时，四：j←1第五章：公司简介3.2. 多步预测策略一些预测专家的研究目标是以模型为中心的方法，人们不应该忽视适当的训练策略的潜力。回想一下我们的意图，我们必须对整个月进行每小时的预测，也就是说，我们面对的是一个多步预测问题。我们必须预测下一个H值[xN<$1，…, 有几种方法可以基于将单变量时间序列转换成适合于机器学习模型的监督问题的不同方法来实现该目的（Bontempi等人，2013; Taieb等人，2012年，我们即将推出。3.2.1. 递归策略设f：R d → R是一个单输出模型，其输出对应于基于d个先前值的下一小时预测，也称为滞后。考虑维度H的预测范围，预测由下式给出8fxN;6：当j≤k时，7：S¼S[{xi-js}^xNh¼fxNh-1;f^xNh-1;8：j←j19：结束时10：μl平均值（S）11：标准差（S）12：U/μgασ13：L¼μ-ασ14：如果xi>U或xiL，则<15：O¼O[{i}16：如果结束17：i←i1第18章：结束19：返回O一旦我们有了离群值索引集O，我们就需要丢弃相关的时间序列值，以支持更合适的值。如果j2O，则xj2[x1，x2，根据前面的公式，我们可以理解这个策略是如何工作的。我们获得第一个预测，x^N1<$fxN;fx^N1;.;xN-d2，等等。我们重复这个过程，直到我们获得整个地平线的预测虽然非常直观，但这种策略陷阱是显而易见的，因为它包括以前的预测，而不是实际值，作为以下模型预测的输入。因此，由于预测的不确定性，我们将过去的预测误差传递给下一次预测，随着我们的预测，预报. 注意，当h>d时，我们不再有任何实际值，输入，只有预测，因此，这种策略可能不适合大H或小d的情况。3.2.2. 季节递归策略我们可以对以前的训练策略进行轻微修改，通过包括如下k个季节性滞后，使其对于季节性时间序列可靠x*¼1XkX（一）N1NN-d1N-100k-100s-1001N-s1其中s是季节周期长度，k是用于计算新值的先前季节元素的数量。显然，s和k应该与检测阶段使用的一致。我们可以使用更复杂的策略，如单指数平滑或双指数平滑或自回归过程来预测前一个异常值，而不是用其季节滞后的平均值来替换异常值注意，该策略可以推广到多个季节周期s1，s2，...，s n，其中k 1，k 2，...，k n个但是，如果我们的季节周期是倍数，在最小值中，一个季节周期是足够的，因为我们设置了一个其中s是季节周期的长度季节性递归的工作方式是递归的;每个预测都包含下一个预测迭代的输入。唯一的区别是增加了非连续的滞后，它们之间有一个规则的间隔，以考虑海-音调对于大多数应用，几乎每个h都有许多实际值{1，2，...，H };因此，该策略不仅适用于季节性时间序列，但也适用于减少累积误差，这意味着预测不确定性较低请注意，在同一与我们提出的离群点检测算法一样，该策略可以足够大的k。一般来说，如果x j2 O <$Tn，则x j是离群值 Oi，Oi3.1.2. 最小-最大正规化很容易理解，K-means和K-NN等算法需要数据归一化;否则，在计算欧氏距离时，单个特征可能会主导优化过程尽管如此，很难理解为什么它在严重依赖导数优化的模型中如此重要，例如神经网络。它从根本上源于经验原因，因为它确保了更稳定和更快的收敛，具有更高的逃逸局部极小值的概率。我们提出了所谓的最小-最大归一化，它将每个元素映射到范围[0，1]中，并由下式给出…,此外，如果我们的季节性周期是最小周期的倍数只要提供足够大的k，单个季节周期就满足多个季节性的目的。3.2.3. MIMO策略MIMO代表多输入多输出，和因此F：Rd→RH。因此，不存在累积误差，并且预测在单个步骤中返回为x^N<$H;FxN;...;xN-d1。的这种方法的主要缺点是大多数机器学习模型自然不允许多路输出。周转训练H单输出模型，每个目标一个，使用直接策略（本泰布x标度x-xminx最大-x最小（二）andHyndman，2012）. 然而，在直接策略中，预测值之间的随机依赖性不被保留，并且训练H模型可能在计算上是繁重的。¼^xj-is;x;x;中国（3）容易地推广到多个季节周期s1，s2，M. Sousa等人数据科学与管理5（2022）13714122X.¼12ni1122niniFig. 1. 多层感知器（MLP）架构。近似计算器（Hornik等人， 1989年）。此外，MLP也适用于MIMO策略，即近似F：Rd →RH. F的近似F是由下式给出的函数的复合：F^XfL1fL...其中，x1/2xN;是隐藏层的数量。向量激活函数由非线性单输出可微激活函数组成，如f i ai;ai;..; a i i; f i a i i;..; f i a i i ①的人。MLP图二. 长短期记忆（LSTM）细胞中的循环过程，改编自Junior等人。（2021）许可。3.3. 模型选择正确的模型是另一个重要的步骤，以及正确的培训策略和正确的绩效衡量标准。在本小节中，我们简要回顾了大量的时间序列预测模型，包括能够处理多个季节周期的模型、基于树的模型和深度学习模型。3.3.1. 季节性天真Seasonal naïve是一种简单的季节性时间序列预测方法;我们简单地将预测值设置为等于上一个季节性观测值。形式上，对于水平H，预测由下式给出：用诸如Adam（Kingma）的优化算法训练网络和Ba，2014）结合反向传播（Rojas，1996）来有效地计算特定成本函数的误差梯度。更多详情请参见Goodfellow et al. （2016年）。整个地平线H在一个步骤中预测为1/2x^NH;...; x ^ N 1] 1/4 F ^x N ;...; x N - d 1。3.3.4. 长短期记忆（LSTM）Hochreiter和Schmidhuber（1997）在1997年开发了一种新的深度学习架构LSTM，能够捕获长期依赖性并减轻消失梯度问题。在递归神经网络（RNN）中存在两个共同的问题。这种架构适用于MIMO策略，类似于MLP;然而，LSTM是专门为序列数据设计的。换句话说，LSTM可以捕获样本之间的依赖关系，而MLP认为它们是独立的。尽管如此，在单变量时间序列中，LSTM相对于MLP的优势被掩盖了。每个LSTM单元都有四个内部组件：输入门、遗忘门、输出门和存储单元，分别用i;f;o;~c表示，如图所示。b北苏丹xNh-sforh2 f1;2;xNh-sforh2 fs1;图二、这些内部组件学习从以前的LSTM中保留什么细胞和忘记什么它们将使用当前时间步长xt进行更新尽管这种方法很幼稚，但它的性能优于更复杂的方法。方法，特别是在没有趋势的高度季节性时间序列中。3.3.2. 多个季节性天真我们可以通过将季节性天真多次应用于不同的季节周期长度并对每个预测进行平均来扩展季节性天真以处理多个季节性3.3.3. 多层感知器MLP是一个非常强大的模型，因为它是一个通用的以及最后的隐藏状态Ht-1如下：ft¼σ。WfxtUfht-1bf（5）（6）（7）~ct¼tanhWcxtUcht-1bc（8）M. Sousa等人数据科学与管理5（2022）137142þ¼N<-我不ω不1/11/1i t-i输入：Dfxi;yig1（数据集），Jyi;yi（成本函数），i;j-1其中，W f、W i、W o、W c分别是当前时间步输入与遗忘门、输入门、输出门和存储器单元之间的权重矩阵。同样，矩阵XU将先前的隐藏状态与门和存储单元连接起来。Bf、Bi、Bo、Bc是相对于栅极和存储器单元的偏置向量此后，我们可以使用以下等式计算下一个单元状态ct和隐藏状态ht点根据之前的计算，可以合理地接受，随着数据集大小的增长，梯度提升迅速变得不可行。因此，通常通过以下方式加速训练阶段：将所述输入特征离散化到BNN箱中。这种用于梯度提升的策略，称为基于直方图的梯度提升，极大地减少了训练时间，因为每个特征只有B个分裂点，并且计算N个示例的B个箱的直方图的时间复杂度为ct<$ftct-1itc~t（九）O（NB）。基于直方图的梯度提升（HistGB）不适合MIMO策略，这意味着我们只能在（10）第一章：其中，n表示元素级乘积。请注意，h t捕获的是短期依赖关系，而c t捕获的是长期依赖关系。LSTM网络就像MLP一样训练，但它采用时间反向传播（BPTT）（Werbos，1990）来计算误差梯度。尺寸如下所示● xt2Rd● ft， it， ot2（0，1）● ht;c~t2μ-1;1μh● ct2 Rh● W2 Rh×d● U2 Rh×h● b2 Rh其中t、d和h分别指时间步长的数量、向量输入特征的数量和隐藏状态单元的数量。在单变量时间序列分析中，d1。请注意，LSTM模型可以有多个LSTM层，每个LSTM层都包含T-LSTM单元。3.3.5. 基于直方图的梯度提升树Boosting是一种集成策略，它将一组弱学习器与一个强学习器相结合，以最大限度地减少训练错误。梯度提升树，顾名思义，融合了梯度下降和提升，利用决策树（Suthaharan，2016）作为弱学习器。算法2. 梯度提升树训练N第一部分K（决策树数量），α（收缩学习率）输出：Fj从一个新的基本学习器开始，如F0x1PN yi递归或直接策略时，使用该模型进行多步预测。3.3.6. 先知Prophet是Facebook核心数据科学团队发布的开源软件该模型基于由下式给出的加法形式：（11）其中，g（t）表示趋势函数，s（t）是季节性函数，h（t）是假日函数，εt是误差项，表示前一个分量不适应的偏差。趋势分量可以通过饱和增长模型或分段线性模型来建模，这两种模型都有变化点来纳入趋势变化。季节性函数由傅立叶级数建模，假日函数以学习每个假日影响的回归量矩阵为基础Prophet使用L-BFGS来获得最大后验估计。先验对于s（t）和h（t）是正态分布，对于变点是拉普拉斯分布。从实践的角度来看，Prophet有几个优点：（1）多个非整数周期的季节性，（2）适用于不均匀间隔的时间序列，（3）快速训练，（4）预测的置信区间，（5）非专家易于使用。3.3.7. TBATSTBATS是一个功能强大的模型，因为它允许多个季节性非整数周期，趋势和BoX-CoX变换来诱导非线性和ARMA误差校正。 TBATS可以看作是以前的状态空间模型如Holt-Winters的推广。请注意，ARMA误差校正至关重要。以前的指数平滑模型假设随机误差过程{dt}是序列不相关的;然而，Chatfield（1978）在一项实证研究中证明，H o l t - W i n t e r s 方法的误差可以成功地用AR（1）过程建模误差的ARMA建模j←1当j≤K时N1/1可以提高预测的准确性。在介绍TBATS方程之前，有必要了解gxiJyFXÞ ¼ -∂Fj-1ðxÞx¼xi 对于所有x i2{x1，x2，蝙蝠侠是如何工作的请注意，BATS与TBATS类似，但只允许多个季节性整数周期，也就是说，在残差数据中拟合决策树hjfxi;g xi gi¼1计算以下步骤给出的最佳步骤届最佳可行技术可表述为：8>xω-1xt（十二）维度优化问题：Jγ1/1我我我Jj-1>：logxω¼0[咒语] PN J型; F型你好，我是说，更新模型：Fj（x）：¼Fj-1（x）<$γjαhj（x）xωlφbXT锡西布吕德（十三）j←j1tt-1t-11/1 t-mitendwhilelt¼lt1φbt1αdt（14）returnFj- -梯度提升以其极其有效的表格数据而闻名;然而，训练多个决策树在计算上是昂贵的，特别是对于具有数万个样本和数百个特征的大型数据集在具有N个样本和D个特征的数据集中，每个决策树必须对所有列进行排序，其时间复杂度为bt¼1-φbφbt-1βdt（15）（16）第一次见面d¼Xpφd Xqθεþε（十七）Hω0O（DNlog（N））。然后，在构建树时，每当添加新分支时，必须测试每个特征，并且每个特征最多具有N-1个分裂t-I不M. Sousa等人数据科学与管理5（2022）13714325030X¼P.K.H1/1我我H1/1Xi1 2jmi（二十三）其中T是季节周期的数量;m1，m2，时间步长t处的短期趋势;stit是时间步长t处的第i个季节分量表示使用参数ω的BoX-CoX变换;并且时间步长t处的误差项dt遵循ARMA（p，q）过程。注意，如果我们将BATS模型表示为BATS（ω，φ，p，q，m1，m2，如前所述，BATS仅适用于整数季节周期，并且具有许多状态。TBATS克服了这个问题，通过诉诸三角表示的季节组成部分的基础上，3.4. 业绩计量本节回顾了时间序列预测中的常见业绩指标，并讨论了它们的优缺点。回想一下，在数学中，度量是一个函数，它必须在它的定义域中保持不可逆性、对称性和三角不等式的同一性。虽然大多数用于评估时间序列预测模型的性能指标并不能验证这些公理，但许多研究人员还是给它们起了相反，我们更愿意称之为性能指标。RMSE和MAE是回归任务中最常用的性能指标，如下所示：r1XH2傅立叶级数，如等式中所示（18）BATS和TBATS尝试引擎盖下的大量模型，有和没有ARMA校正，有和没有BoX-CoX变换，有和没有趋势和阻尼趋势。通过拟合优度选择最佳模型Akaline Information Criterion（AIC）。进行彻底RMSE¼HMAE¼1XHi¼1xi-^xijx-bxj（二十二）TBATS的解释，包括参数估计，参见De Liveraet al. （2011年）。RMSE可以被看作是2-范数的归一化版本，误差分布的标准差估计量类似地，MAE是1-范数的归一化版本。这两个性能指标siXki锡西（十八）容易理解，并且在比较不同的tj¼1 j;tsjisi1cosλjis*i1sinλjiγidt（19）在一个时间序列中。然而，由于它们是规模依赖的，它不适合他们测试模型跨越多个时间序列。此外，他们没有提供任何线索，关于一个真正的有效性;t j;t-s*-sj;t-1Sino-Lebanon-Lebanon预测模型，因为它们依赖于时间序列的大小。百分比测量误差，如MAPE，在商业中是著名的j;tj;t-1jj;t-1j2由于其规模独立的性质，其中，γi和γi是平滑参数，λi2πj可解释性MAPE表示为MAPE¼100XH jxi-^xij（24）文献，这往往会导致更好的预测精度（贝茨和格兰杰，1969年;克莱门，1989年）。堆叠（Wolpert，1992）是一种结合多个模型的聪明方法。使用以模型预测为输入的新模型，并了解实际值，学习如何组合模型以提高预测精度。然而，叠加可能会导致过度拟合，并且为了捕捉长时间的季节性，需要进行许多预测，这不可避免地导致用于训练模型的样本短缺反过来，我们建议将模型的预测与加权平均相结合，其中每个模型对最终预测的贡献由其样本外表现加权，如下所示几位作者已经讨论了MAPE的充分性（De Myttenaere等人，2016;Hyndman，2006; Tofallis，2015）。基于此公式，Eq. 在公式（24）中，除以实际值引起了由于除以0而引起的间歇序列的问题，并且MAPE的下限为0，但没有上限。此外，对于实际值为50和预测值为30，MAPE<$100 × j50-30j <$40%，而对于实际值为30和预测值为50，MAPE <$100×j30-50j <$66：106%，该度量是不对称的。这个简短的例子演示了如何不可靠的MAPE可以即使在保持相同的绝对误差。Kim和Kim（2016）设计了MAAPE，这是MAPE用于间歇性时间序列的一种很好的替代测量性能，上限为100π。MAAPE比MAPE有一些优势，因为它解决了下-^xhK1/1 wi^xi;hh2 f1;2;当我们除以接近于零的实际值时，会出现无穷大此外，MAAPE在正负误差方面更加平衡其中，K是要组合的模型的数量，x^i;h表示第i个模型的h步前预测，H是预测范围，wi^i。预测准确度模型.预测准确性j1尽管如此，MAAPE不那么直观，仍然是不对称的，并且随着绝对误差的增加，惩罚也更少。Makridakis（1993）将sMAPE定义为值得注意的是，加权平均集合（WAE）不是sMAPE¼200XHjxi-^xij（二十五）这不仅是为了提高预测的准确性，也是因为依赖单一模型是危险的。这可能很快导致不一致。回想一下，我们打算开发一个健壮的模型来管理趋势、季节性、时间表和任何其他类型的意外变化。WAE试图克服这些限制。尽管除了WAE和Adhikari和Agrawal（2012）提到的更复杂的预测组合策略之外，还有其他值得探索的预测组合策略，但对于大多数应用程序来说，这些微小的改进并不是交易破坏者。即使是一个简单的平均值也被证明是难以击败的。Hi¼1jxix^ij原始调整MAPE的修改版本（Schnaars，1986）。实际上，这个替代方案是对称的，并且使得被零除的可能性更小，并且如果实际值和预测值都是正的，则200是上限。尽管是对称的，sMAPE导致了新的不对称，有利于预测过度的模型。此外，如果实际值或预测值为0，则sMAPE表现不佳，因为对于该观测，sMAPE变为200，因此不是间歇性时间序列的最佳选择。3.3.8. 加权平均系综组合预测是预测中一个长期存在的结果M. Sousa等人数据科学与管理5（2022）137144¼¼¼R2¼1 -Pi¼1第二章（二十六）图3. 客户需求预测流程图。另一个性能指标是R2，最初被认为是线性回归模型的拟合优度指标，并被解释为独立变量共同解释的因变量方差的百分比然而，它作为一种对称和平衡的独立于规模的性能指标的使用正在增长，并且根据一些研究（Chicco等人，2021年），它可以提供更多信息当有多个样本外预测时，即，预测范围必须足够大。相对测度是尺度独立的、对称的、易于解释的，即使对于间歇性时间序列，也很少是unfined或infinite。相对平均绝对误差（RelMAE）由下式给出：以上的业绩指标。R2定义为PH xi-^xiHRelMAEMAEMAEb（二十七）i¼1μ mxi-μm其中μ表示平均训练样本

下载后可阅读完整内容，剩余1页未读，立即下载