没有合适的资源?快使用搜索试试~ 我知道了~
数据科学与管理6(2023)46研究文章预测每小时PM2.5浓度的基础上,结合深度学习算法的蔡培磊,张成元*,柴建西安电子科技大学经济与管理学院,西安A R T I C L E I N F O保留字:PM2.5浓度预测分解-集成-重构框架变分模式分解方法深度学习A B S T R A C T准确预测每小时PM2.5浓度对于防止空气污染的有害影响至关重要在这项研究中,开发了一种新的分解-集成框架,结合变分模式分解方法(VMD),计量经济学预测方法(自回归综合移动平均模型,ARIMA)和深度学习技术(卷积神经网络(CNN)和时间卷积网络(TCN)),以模拟每小时PM2.5浓度的数据特征。以中国甘肃省兰州市的PM2.5浓度为样本,实证结果表明,所开发的分解-集成框架显著优于计量经济模型、机器学习模型、基本深度学习模型和传统分解-集成模型的基准,在一步、两步或三步之内。这项研究证实了新的预测框架在捕捉PM2. 5浓度数据模式方面的有效性,并可用作有意义的PM2. 5浓度预测工具。1. 介绍PM 2.5(动态直径小于2.5 μ m的颗粒物)是最突出的空气污染物,引起了政府和公众的广泛关注(Huang et al., 2021; Liu等人, 2020;Wang等人,2022年a)。 由于PM2.5颗粒很小,很容易进入肺部和血液,对人体的许多器官造成伤害(Wood,2022; Wu等人, 2020年)。因此,公众迫切希望构建空气污染预警系统,制定有针对性的健康出行计划,以有效应对PM2.5的危害(Wang et al.第2022条b款)。因此,通过PM2.5浓度观测的监测和数据收集,特别需要采用先进的预测技术来捕获、识别、建模和预测空气污染数据模式(Liu et al.,2021年)。因此,在学术界,预测模型能否更准确地预测PM2.5浓度一直是一个热点问题,这导致该领域的预测框架不断更新,以获得更准确和更快的预测结果(Kow et al., 2022年)。事实上,PM2.5浓度预测框架根据建模过程大致分为两组:物理模型和数据驱动模型(Bai等人, 2019年; Liu等人, 2020; Wang等人,2022年a)。在物理模型方面,这些模型主要分析和挖掘大气的化学和物理成分与PM 2.5浓度之间的关系(Djalalova等人, 2015年)。 至于数据驱动模型,使用统计规则的流行预测模型被广泛用于对PM 2.5观测的数据模式进行建模(Wang等人,2022年a)。有趣的是,后一种分类可以根据模型复杂性和原理大致分为三类:传统统计模型、人工智能(AI)模型和混合模型(Liu et al.,2021年; Yang等人, 2022年)。然而,任何单一的基于AI的模型在考虑鲁棒性时都有局限性(Yin等人, 2021年)。混合预测策略由组合模型组成(Wang等人,2021 b)和分解-集合模型(Ausati和Amanollahi,2016),已被逐步利用,并已成为克服上述两组缺点的趋势(Zhu和Xie,2023)。因此,本文采用变分模式分解(VMD)方法对非线性、非平稳的PM2.5浓度数据进行更同行评议由Xi交通大学负责* 通讯作者。电子邮件地址:chyzhang@X idian.edu.cn(C. Zhang)。https://doi.org/10.1016/j.dsm.2023.02.002接收日期:2022年10月15日;接收日期:2023年2月26日;接受日期:2023年2月27日2023年3月1日上线2666-7649/© 2023 Xi'an Jiaotong University.出版社:Elsevier B.V.代表科爱通信有限公司公司这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表数据科学与管理杂志主页:www.keaipublishing.com/en/journals/data-science-and-managementP. Cai et al.数据科学与管理6(2023)4647重要的是,为了提高预测效率(降低模型复杂度和计算成本),通过使用熵计算复杂度来重建分解的子分量是一种有意义的策略,因为分解技术可能产生三个以上的连续性,其中一些具有相似的波动性和方差(Liu和Chen,2020; Niu等人,2017年)。此外,预测技术的选择对于不同组分的建模和预测至关重要,因为不同组分系列的波动是不同的(Sun和Huang,2020; Yu等人, 2015;Yu和Ma,2021)。例如,由于噪声或不规则因素的影响,一些分量显示高频特征,而一些分量显示基于序列的基本趋势的趋势项(Yu等人,2015年)。计量经济学模型更适合平稳序列,即趋势项,而基于人工智能的预测技术更适合高频子序列。因此,根据不同的趋势选择合适的预测技术以提高预测精度是非常重要的(Yu和Ma,2021)。在这种情况下,正态分解-集合预测框架将原始观测分解为一系列子分量,导致所有子分量的预测计算需要更耗时的过程和损失效率(Yu等人, 2015; Yu和Ma,2021)。因此,本研究提出了一种改进的分解-集合预测框架,其重建过程涉及显著的分解技术,计量经济学模型和深度学习模型,以预测每小时PM2.5浓度。特别地,采用VMD对原始数据进行分解,可以自适应地实现时间序列数据的频域划分和各分量的有效分离(Zhang et al., 2021年)。至于预测技术,自回归积分移动平均模型(ARIMA),卷积神经网络(CNN)和时间卷积网络(TCN)被选择来建模和预测的低,中,高子成分,分别。拟议框架包括三个主要步骤该方法首先利用VMD将PM2.5数据分解为子分量(本征模态函数分量和残差),然后基于置换熵对所有子分量进行重构。其次,对PM2.5浓度时间序列的重构分量进行建模和预测,并通过简单相加的方法计算最终预测结果。第三,对实证结果进行了计算和论证。所提出的预测框架的主要贡献如下。(1) 提出了一种新的分解-集成-重构预测框架,该框架考虑了分解方法和重构策略,利用熵计算和研究子分量(2) 使用不同的有效预测工具(ARIMA、CNN和TCN)来捕获重构子时间序列数据的不同时间尺度模式,其中包括低频、中频和高频数据。(3) 以中国甘肃省兰州市为目标数据,在三个评价标准方面,所提出的预测框架的性能优于其他基准,包括基于神经网络的模型、基于人工智能本文的其余部分组织如下。在第2节中,描述了所提出的预测框架。第三节介绍了本研究的实证设计第四部分对实证结果进行了论证和第五部分总结了本研究,并提出了未来研究的主要方向。2. 文献综述在本节中,对预测技术和组合预测策略的相关文献进行了总结。2.1. 预测技术传统的统计模型包括回归模型、时间序列模型和计量经济模型,如线性回归(Yuan andChe,2022)、指数平滑(Jiang et al.,2021 a)和ARIMA模型(Zhang等人, 2018年)。 该方法原理简单,计算方便,对平稳序列效果好(Yang et al., 2022年)。然而,很难处理具有强随机性和波动性的复杂系统,例如PM 2.5浓度(Yang et al.,2022年)。对于基于AI的模型,流行的支持向量机(SVM)模型(Zhou et al.,2019 ) , 机 器 学 习 模 型 ( Dong 等 人 , 2022 ) 和 深 度 学 习 模 型(Menares et al.,2021年)已被广泛用于预测PM 2.5数据(Yin等人,2021年)。相应地,基于人工智能的模型由于能够有效地描述非线性和非平稳数据而具有较高的预测精度,这已经成为PM2.5领域中有效和流行的非线性预测技术(Dong et al., 2022年)。在深度学习模型方面,基于AI的群体的深度学习模型被普遍用于预测复杂系统,例如PM 2.5数据(Ma等人, 2020年; Sun等人, 2021; Tan等人, 2022年)。示例包括变体长短期记忆(LSTM)(Li等人,2017),门控复发单位(GRU)(Yeo等人, 2021)和CNN(Wang等人,2021年a)。深度学习神经网络擅长使用大量的层和宽的宽度来捕获和事实上,深度学习技术高度依赖于数据;数据量越大,预测性能越好。然而,诸如递归神经网络(RNN)及其变体(LSTM和GRU)的深度学习技术可能遭受梯度爆炸、信息丢失和其他问题(Deng et al., 2019年;Wang等人,2021年a)。相比之下,时间卷积神经网络(TCN)作为卷积序列预测的通用架构和有前途的工具,可以基于架构中卷积的因果关系有效地对所有历史观测和相关变量数据进行建模(Chen等人, 2020年)。2.2. 组合预测策略对于组合模型(Wang等人,2021 b)和分解集成模型,前者可以将各种预测技术的结果平均化,有效地减少了不同算法的缺陷。此外,智能优化算法可用于确定组合模型权重(Wang等人,2022年a)。例如,Liu etal. 于2019年,本集团在空气PM 2. 5浓度多步预测领域使用粒子群优化(PSO)及AdaBoost算法优化反向传播神经网络(BPNN)。Samal等人(2021)将卷积神经网络(CNN)的快速特征提取能力和递归神经网络(RNN)的顺序时间建模功能并行结合起来,以提高预测精度。Wang等人(2021 a)使用卷积网络(ConvNet)和基于密度的双向门控递归单元(Bi-GRU)来预测PM 2.5,其结合了ConvNet,Dense和Bi-GRU。Wu等人(2020)提出了一种混合计算框架,由三个模块组成:混合数据预处理,多目标特征选择和集成预测。混合数据预处理可以平滑原始序列并生成更可预测的子层。另一方面,后者模型将非线性和非平稳的复杂系统数据分解成不同时间尺度的子序列,然后选择适当的预测技术来预测每个子序列并获得最终预测值(Zhang et al., 2021年)。例如,Chen et al. ( 2016)利用小波技术,P. Cai et al.数据科学与管理6(2023)4648¨22¨阿勒特δðtÞþ*ukte-jωktébéyt-ukt;yt-分解原始PM2.5观测数据,并选择基本预测技术,包括计量经济学,人工智能和机器学习模型来建模和预测子成分。 Dong等人(2022)提出了一种由自适应噪声的完全集成经验模式分解(CEEMDAN)和VMD组成的两阶段分解技术来预测每日PM 2.5。 Du等(2020)使用ICEEMDAN过滤高频噪音并提取时间序列频率的主要特征。 Jiang等人(2021a)使用具有自适应噪声的完全集成经验模式分解(CEEMDAN)和深度时间卷积网络(DeepTCN)来预测PM 2.5浓度。同样,Niu等人(2017)采用集合经验模式分解和最小二乘支持向量机(EEMD-LSSVM)来预测每日PM2.5浓度。3. 方法在本节中,提出了一个新的分解-集合框架来预测小时PM2.5浓度,通过使用VMD,ARIMA,CNN和TCN。第3.1节概述了所提出的框架,第3.2、3.3和3.4节分别描述了所采用的预测模型、VMD、TCN和基准3.1. 框架图 1显示了一般预测框架。相应地,该框架包括三个子步骤:数据分解与重构、PM2.5浓度预测和实证结果评估。数据分解与重构。在该步骤中,对研究目标数据的时间序列进行分解和重构。具体地,将PM 2.5数据y(t)分解成n-1个本征模式函数(IMF)分量Cj;t=1; 2;:;n- 1和一个残差(rt)。然后,所有的分解成分的复杂度计算置换熵,并将它们重建成三个“新”的PM2.5浓度预测模型。在这一节中,三个流行的和优秀的预测技术,即ARIMA,CNN和TCN,通过有效地捕捉不同频率的时间序列数据模式来建模和预测重建的三个“新”分量。具体而言,利用ARIMA在处理低频时间序列模式方面的优势,引入ARIMA对低频子序列进行建模,采用CNN对中频分量特征进行建模,采用TCN对高频分量进行建模。实证结果评价。在这一步中,通过实证结果评估和统计检验来揭示所提出的框架的优越性。因此,首先,流行的评价标准,即平均绝对百分比误差(MAPE),平均绝对误差(MAE),对称平均绝对百分比误差(SMAPE),均方根误差(RMSE)和方向精度(D stat),被用来比较所有预测模型的预测精度。其次,使用典型的统计检验,即Diebold-Mariano(DM)检验,揭示了所提出的预测框架的有效性3.2. VMD作为一种很有前途的分解技术,VMD通过构造和求解变分问题来处理中心频率和带宽,将非平稳时间序列分解为具有不同频率(或不同时间尺度)的子序列(Yuan和Che,2022)。相应地,每个分量的中心频率和有限带宽自适应匹配以求解约束变分模型。具体计算过程如下。(1) IMF(分量,uk(t))被视为调幅-调频信号(AM-FM)。(2) 计算各分量的中心频率,并对各模态信号的频谱进行调谐。(3) 约束变分问题可以转化为处理优化问题如下:(X.F¼j(2)最小uk;ω kgtKs:t:Xuk¼ytδtπt*ukte-jωkt2(二)其中 * 表示卷积算子,并且拉格朗日乘子λ用于将约束变化问题转换为以下无约束问题:Lfukg;fωkg;λX.jπt公司 简介K2 ¨k¨2K(三)Fig. 1. PM2.5小时浓度预测总体框架。变分模式分解(VMD);自回归积分移动平均模型(ARIMA);反向传播神经网络(BPNN);极限学习机(ELM);长短期记忆(LSTM);门控递归单元(GRU);时间卷积网络(TCN);集合经验模式分解-时间卷积网络(EEMD-TCN);变分模式分解-时间卷积网络(VMD-TCN);平均绝对百分比误差(MAPE);平均绝对误差(MAE);对称平均绝对百分比误差(SMAPE);均方根误差(RMSE);以及方向统计(Dstat)。其中,α是二次惩罚参数,λ(t)表示拉格朗日乘子,uk和wk分别表示第k个模式和第k个中心频率,并且 * 表示卷积算子。Dragomiretskiy和Zosso(2013)描述了一种特定的溶液工艺。3.3. TCN神经网络模型作为标准CNN的高级变体,TCN结合了RNN的时间序列建模能力和CNN的并行计算能力,是一种很有前途的深度学习方法。K¨αuktP. Cai et al.数据科学与管理6(2023)4649ΣΣð Þ用于捕获非线性数据的数据模式的技术(Mi等人, 2022年)。因此,基于TCN的优点,TCN被引入到该预测框架中,如图所示。二、扩展卷积运算被定义为(Hu et al., 2022; Meka等人, 2021年):K-1系列数据(Liu等人,2019年)。作为一个神经网络,它需要两个计算步骤,即信息的正向传播和误差的反向传播,以递归地调整参数,并将计算误差降低到可接受的水平。通常,三层BPNN神经网络被构造,其包括输入层、隐层和输出层。计算公式如下:Ftxfixt-d×i(4). Xn! .Σ1/4其中f(i)表示过滤器的基本信息,k是过滤器的大小hj¼f11/1wj;ixi<$θj;θj≥0;wj;i≤1(七)核,d是膨胀因子,其通常增大到expo。-. Xm! .Σ本质上与网络的深度有关,i是网络的级别,t d=i是过去的方向残差块是TCN的另一个组成部分,定义为:y/f0j1w0;jhj<$λ0;λ0≥0;w0;j≤1(八)o¼ReLUconv1×1xFx(5)其中o是层的输出,F表示要学习的残差映射。此外,还应用了ReLU激活,然后是权重归一化层。3.4. 基准为了验证预测方法的有效性,框架中考虑了基本和流行的分解和预测基准模型,包括基于EMD的,基于VMD的,计量经济预测,人工智能预测(1) Arima作为一种有意义的基本计量经济学预测工具,ARIMA(p,d,q)方法包括自回归和移动平均信息,方程如下(Shahriar et al., 2021年):yt<$εφ1yt-1φpyt-pμt1μt-1qμt-q(6)其中p、d和q分别表示自回归、差分度同时,φ表示自回归部分的参数,ε是移动平均部分的参数,ε是常数项,μ是白噪声。(2) BPNNBPNN是人工智能领域中一种典型的、流行的人工智能方法它被广泛用于预测时间,图二. 时间卷积网络(TCN)的架构。修正线性单元(ReLU)。其中Eq. (7)指示输入信息被映射到隐藏层通过f1,xi表示第i个输入层节点。当量(8) 表示隐藏信息被映射到输出层,hj和y分别是第j个隐藏层节点和输出。相应地,θj和λ0为偏差。 n和m分别是输入层和隐藏层中的节点编号。然后,w表示权重,f是激活函数。此外,选择梯度下降作为调谐方法。(3) LSTM作为一种改进的递归神经网络,LSTM由遗忘门(ft)、输入门(it)、输出门(ot)和单元(Ct)组成,可以处理长距离信息。 一组LSTM单元的架构如下(Li等人, 2017年):忘记门:ft<$σWf·ht-1;xtbf(9)输入门:it<$σ½Wi·ht-1;xtbi](10)C~t¼tanh½WC·ht-1;xtbC](11)Ct¼Ct-1ftitC~t(12)输出门:(13)(14)第一次见面预测值:yt¼σ。Wfchtbfc(15)其中W和b表示LSTM架构中的权重矩阵和偏置向量,h是隐藏状态,ε是逐点乘法,ε表示矩阵乘法,σ表示S形激活函数。(4) GRU与LSTM类似,GRU也是一种广泛使用的深度学习工具,它是基于LSTM的更简单的变体(Tao et al., 2019年)。特别地,GRU构造了两个门(更新门z t和复位门r t),用于解决问题,例如与LSTM的三个门相比时的BP. Cai et al.数据科学与管理6(2023)4650长期记忆和反向传播中的梯度。具体情况如下:(16)(17)P. Cai et al.数据科学与管理6(2023)4651X1b - -一种NBbjNstat不不Nt¼;;D和yk¼1是y;由拟议的AP-N不不XBt产品介绍P.B..B.BB(18)vu1XNht1-ztht-1zt~ht(19)RMSE¼t Nt¼1yt yt2(二十二)ytσ。Whb儿童(20)NNjtb/fcttMAE¼t1/2y-byt关于GRU的所有参数,请参考上面的LSTM。(5) EEMD-TCNSMAPE¼100%Xjyt-ytj(二十四)为了验证所提出的分解方法的有效性,利用基本的多尺度分解方法进行预测浓度.相应地,预测目标数据被分解为不同的分量,并且使用著名的深度学习算法,即TCN,来预测所有IMF分量。成分和残留物。然后,通过以下公式计算最终预测值:Nt¼1ytjjytj =21TD1/4a × 100%(25)t1/2其中,N表示原始数据量,yt和y表示在时间t的实际值和预测值,以及Dstatat1iftt1-ytttt1-的增订条文(6) VMD-TCN为了揭示分解方法的重构的优点(即,建议的ARIMA-CNN-TCN),VMD-TCN被用于预测PM 2.5时间序列。因此,首先,VMD被用来对原始数据进行分解,然后使用TCN对所有组件进行最后,将各组分的预测值相加,yt0或t0否则。为了证明所提出的预测框架在统计水平上的有效性,采用DM检验来揭示框架中所有预测模型的统计显著性,并且损失函数选择平均绝对百分比误差(Du等人,2022年)。因此,零假设比较了这些预测模型的相似预测精度DM统计量可以计算如下:得到最终的预测结果。德国马克1= 2(二十六)4. 经验设计为了说明和验证,建议的分解-选择集合框架进行PM2.5小时预报浓度,浓度VD=N哪里D¼1N1D t,D t¼1-yA t=y t-1-yB t=yt,五号bco vDt; Dt-1λt,h表示单位,byAt在中国甘肃省兰州市的一个工厂。本节介绍了数据来源、评价标准和相关预测参数。4.1. 数据描述为 了 验 证 所 提 出 的 预 报 框 架 的 有 效 性 , 在 中国甘肃省兰 州 市(36°030N,103°400E)收集了PM 2.5浓度的小时观测。兰州位于中国西部,黄河上游兰州市受地理环境的制约,工业和机动车尾气排放量大,空气质量恶化,雾霾弥漫。 就每小时PM 2.5浓度而言,数据集涵盖2020年1月1日至2022年4月30日期间,可在网站(https://quotsoft.net/air/)。因此,本研究采用了一种流行的、典型的PM2.5浓度预测方法,该方法选择历史时间序列值(Xi,Xi1,L和h分别表示滞后信息4.2. 评价标准在这项研究中,选择基本的预测精度标准,包括平均绝对百分比误差(MAPE)、均方根误差(RMSE)、平均绝对误差(MAE)、对称平均绝对百分比误差(SMAPE)和方向统计量(D stat),以测试模型预测运动水平和方向的能力(Bai等人, 2019年; Du等人, 2020年; Jiang等人,2021b; Kleine Deters等人,2017; Ventura等人, 2019年)。MAPE1/41Xj1-by=yj( 21)t1/2B;tt分别在时间t接近A和基准模型B。4.3. 型号规格将数据集分为80%的训练集和20%的测试集,以确保所提出的方法的可靠性。在ARIMA中,根据赤池信息准则(AIC),选择ARIMA(1,1,2)进行预测. 在BPNN和ELM中,网络在训练集中有5%的隐藏节点。 在LSTM和GRU中,隐藏大小设置为200,学习率为0.005,训练时期为250,优化器为Adam。在实验中,TCN块数为1,核大小为3,RMSE具有尺度无关性和可解释性的优点,并采用RMSE作为损失函数。亚当被用作我们模型的优化器训练epoch的数量是1,000,批量大小是64,学习率是0.01,优化器是Adam。 在CNN-TCN中,参数与TCN相同,核大小设置为3,训练时期为500,学习率为0.05。除ARIMA外,所有模型平均运行100次。5. 实证结果提出了一个全面的比较拟议的分解-集成框架,涉及流行的预测技术和因此,为了说明和验证,基于VMD计算了每小时PM 2.5浓度观测值的分解分量,在第5.1节和第5.2节中进行了全面的比较。第5.3节进行了统计检验,第5.4节总结了实证结果的主要结论。每小时PM2.5P. Cai et al.数据科学与管理6(2023)46525.1. 分解结果VMD作为一种多尺度分解技术,能有效地处理模式混叠现象,对采样和噪声具有较强的鲁棒性。在该方法的第一步中,分解成分和残留物的不同频率如图所示。 3. 特别地,所有IMF分量和残差从最高频率到最低频率进行排序。同时,利用VMD方法从原始PM2.5浓度时间序列中提取了4个IMF和1个残差图4中还示出了分解分量(IMF和残差)的重构结果。特别地,使用置换熵获得三个基于复杂度的重构的分解频率,即,高频率(IMF 1,熵为0.9714,IMF 2为0.9611,IMF3为0.9771)、中频率(IMF 4为0.8509)和低频率(残差为0.5127)。5.2. 预测结果以预测性能为中心,对基本的计量经济预测方法、人工智能方法、机器学习方法、深度学习技术、图四、PM分解组分的重构两千五基于分解-集成的方法,并进行了拟议的预测框架。对于不同的水平和方向预测评价标准,表1给出了一步、两步和三步预测值的预测结果。DM测试可以从统计学上验证所提出的预测框架的有效性,如表2所示。如表1所示,粗体字表示所提出的预测框架在每个水平的所有评估标准方面实现了最佳预测性能此外,统计测试(DM测试)亦证明,建议框架的预测值较其他预测模型为佳,置信度为99%。就表1中的MAPE而言,基于分解-集合的预测模型,即EEMD-TCN,VMD-TCN和VMD-TCN-ARIAM-CNN-TCN,在所有范围内都明显优于单一预测技术。更重要的是,所提出的分解-集成框架取得了更好的预测性能比其他类似的分解-集成模型。特别是,VMD-ARIMA-CNN-TCN预测框架的MAPE比所有其他八个预测模型中相应MAPE的最低值做出了更准确的预测,这使得三个水平的平均性能提高了53.53%。对于所有基准的相应 MAPE 值 , 所 提 出 的 框 架 分别约为70.45% ,74.17% ,74.95% ,75.41%,76.85%,74.53%,使用ARIMA 、BPNN 、ELM、LSTM 、GRU 、TCN 、EEMD-TCN和VMD-TCN时,比八个基准低67.59%和52.47%,分别因此,它被证明是拟议的框架,在一至三个水平区间内实现相对稳定、更准确的小时PM 2. 5浓度预测能力。VMD-TCN的预测性能优于EEMD-TCN,其MAPE比EEMD-TCN低约31.81%,说明VMD能更好地分解原始目标数据。至于表1中的RMSE,基于所提出的模型报告的最低数量的粗体输出,表明与其他模型相比,所采用的分解技术、基本计量经济学模型和所有范围的高级深度学习技术(VMD-ARIMA-CNN-TCN)可以获得最佳 性 能 因 此 , 基 准 测 试 的 RMSE 值 分 别 高 出 约 76.74% 、 77.22% 、78.02%、76.26%、77.68%、76.78%、71.38%和54.39比所提出的框架的相应RMSE值。类似地,第一个基本分解-集合预报框架 ( EEMD-TCN ) 分别为 23.04% 、 25.62% 、 30.21% 、 20.53% 、28.20%和比ARIMA、BPNN、ELM、LSTM、GRU和TCN分别低23.24%。第二基本分解-集合预测框架(VMD-TCN)分别比ARIMA、BPNN、ELM、LSTM、GRU、TCN和EEMD-TCN的基准低近49.00%、50.05%、51.81%、47.94%、51.05%、49.08%和37.25%。上述结果再次揭示了分解-集合框架对PM2.5建模的有效性。有趣的是,当比较最后三个预测框架时,分解-集成-重构策略优于简单的分解-集成框架从方向性评价标准来看,VMD-ARIMA-CNN-TCN 优 于 ARIMA 、BPNN、ELM、LSTM、GRU、TCN,EEMD-TCN和VMD-TCN通过比较所有层位的D统计,如表1所示。具体而言,建议的D统计值骨架分别为53.85%,57.52%,55.40%,52.82%,图3. PM 2.5的分解成分本征模函数(IMF)。分别比基准点高63.70%、55.93%、22.99%和13.02%所有三个分解集成框架都比单一预测技术实现了更好的准确性(即,ARIMA、BPNN、ELM 、LSTM 、GRU 和TCN )。此外,VMD-TCN 优于EEMD-TCN的性能,前者的方向性标准几乎比后者高出8.82%。通过在每个水平上的所有水平(MAPE,RMSE,MAE和SMAPE)和方向性(D stat)评估标准,在预测PM 2.5浓度时可以清楚地显示以下内容。首先,分解-集合预测框架比单一预测模型能更好地预测非线性和非平稳的PM 2. 5浓度观测值。其次,也是最重要的,分解后的预测框架可以根据每个分解子序列的复杂度很好地重构P. Cai et al.数据科学与管理6(2023)4653表1不同预测模型的评价标准不同的预测模型ArimaBPNN榆树LSTMGRUTCNEEMD-TCNVMD-TCNVMD-ARIMA-CNN-TCN一MAPE0.21790.22660.26470.24850.26880.25270.17820.12200.0488RMSE16.430916.273519.864516.451116.806217.178711.74666.98562.8009D状态0.60580.60000.55290.60580.55290.57050.80580.85880.9294Mae10.822410.234811.601810.027610.441010.08298.18917.16545.9575SMAPE0.05570.05570.05870.05670.05760.05280.04460.04380.0358两MAPE0.28270.28730.33820.34750.36270.32930.24240.18040.0737RMSE19.647618.446720.831518.881920.898420.088615.787210.52023.9137D状态0.54700.56470.58820.55290.51760.57640.73520.78820.9058Mae15.039314.999815.711514.069414.104213.999412.94319.63807.7306SMAPE0.07300.07300.07530.07340.07630.07540.06520.05250.0453三MAPE0.29540.39670.33610.36050.38460.34150.30520.19250.1127RMSE20.514423.060219.193620.103921.260319.415618.458811.35266.4458D状态0.60580.55290.60000.61170.58230.58820.65880.74700.8705Mae17.585517.101918.277316.335317.896716.072113.99289.66368.3135SMAPE0.07430.07230.07720.07430.07810.07730.74220.05920.0573注意:变分模式分解(VMD);自回归积分移动平均模型(ARIMA);反向传播神经网络(BPNN);极限学习机(ELM);长短期记忆(LSTM);门控递归单元(GRU);时间卷积网络(TCN);集合经验模式分解-时间卷积网络(EEMD-TCN);变分模式分解-时间卷积网络(VMD-TCN);变分模式分解-自回归积分移动平均模型-卷积神经网络-分解时间卷积网络(VMD-ARIMA-CNN-TCN);平均绝对百分比误差(MAPE);均方根误差(RMSE);方向统计(Dstat);平均绝对误差(MAE);和对称平均绝对百分比误差(SMAPE)。粗体字表示所提出的预测框架在每个水平上的所有评估标准方面实现了最佳预测性能表2Diebold-Mariano(DM)检验(p值)。模型地平线ArimaBPNN榆树LSTMGRUTCNEEMD-TCNVMD-TCNEEMD-TCN 12.39(0.01)2.97(0.00)2.95(0.00)3.17(0.00)3.12(0.00)2.95(0.00)--22.83(0.00)3.63(0.00)3.90(0.00)3.75(0.00)3.72(0.00)3.91(0.00)--32.49(0.01)2.77(0.00)2.65(0.00)2.14(0.00)3.31(0.00)2.67(0.00)--VMD-TCN 13.50(0.00)3.92(0.00)3.85(0.00)4.04(0.00)3.86(0.00)3.85(0.00)2.75(0.00)-24.72(0.00)5.35(0.00)5.10(0.00)5.26(0.00)5.03(0.00)5.10(0.00)2.62(0.00)-34.81(0.00)5.90(0.00)4.95(0.00)4.70(0.00)5.29(0.00)4.98(0.00)2.59(0.01)-VMD-ARIMA-CNN-TCN 13.71(0.00)4.14(0.00)4.07(0.00)4.25(0.00)4.06(0.00)4.07(0.00)3.35(0.00)4.03(0.00)25.13(0.00)5.76(0.00)5.52(0.00)5.62(0.00)5.37(0.00)5.53(0.00)3.84(0.00)5.19(0.00)35.31(0.00)6.48(0.00)5.68(0.00)5.42(0.00)5.64(0.00)5.72(0.00)4.42(0.00)5.17(0.00)注:变分模式分解(VMD);自回归积分移动平均模型(ARIMA);反向传播神经网络(BPNN);极限学习机(ELM);长短期记忆(LSTM);门控递归单元(GRU);时间卷积网络(TCN);集成经验模式分解-时间卷积网络(EEMD-TCN);变分模式分解-时间卷积网络(VMD-TCN);变分模式分解-自回归积分移动平均模型-卷积神经网络-分解时间卷积网络(VMD-ARIMA-CNN-TCN)。有效地对子序列进行建模,显著提高预测精度。这些结果的一致性证明了所提出的分解集成重建预测框架(VMD-ARIMA-CNN-TCN)在建模数据模式和提高预测精度方面的有效性,特别是对于PM 2.5浓度。5.3. 统计检验为了进一步验证建议框架在统计显著性方面的有效性,我们使用了流行的统计检验(DM检验)来检验样本外预测结果的统计显著性。具体而言,DM测试证明了与所有其他基准相比,拟议VMD-ARIMA-CNN-TCN的优越性,置信度为99%(表2)。因此,确定了三项有意义的成果。首先,将所提出的框架的预测值作为测试目标,p值都小于1%(在99%的置信水平下),表明分解-集成-重构预测框架在统计学上优于基准。第二,EEMD-TCN和VMD-TCN在1%的显著性水平下可以取得比六个单一模型(ARIMA,BPNN,ELM,LSTM,GRU和TCN)更好的预测结果,揭示了基本分解-集合预测框架的优越性。第三,在99%的置信水平下,VMD-TCN比EEMD-TCN具有更好的预测结果表明,VMD对目标时间序列数据的分解具有良好的效果。5.4. 总结综合各种预报方法的预报结果和统计检验结果,可以得出三个主要结论(1) 从水平和方向评估标准的角度来看,所提出的分解-集成-重构预测框 架 , 即 VMD-ARIMA-CNN-TCN , 远 远 优 于 八 个 基 准(ARIMA,BPNN,ELM,LSTM,GRU,TCN,EEMD-TCN和VMD-TCN)(2) 通过分解每小时的PM2.5观测数据,分解-集合框架的预测能力可以重复和统计地证明。它主要是对单个结果的子分量进行建模和预测,然后通过加法规则计算最终的(3) 在分解技术方面,所提出的框架和VMD-TCN框架在所有三个评价标准方面都优于基本EEMD-TCN框架,这表明基于VMD的预测框架能够很好地遵守P. Cai et al.数据科学与管理6(2023)4654þ6. 结论由于PM2.5数据的内在复杂性,本研究的主要目的是从理论角度探讨所提出的分解-集合-重构预测框架模型如何预测非线性、非平稳的小时PM2.5在此背景下,对计量经济学、人工智能、机器学习、深度学习和基本分解集成预测模型进行了全面比较。相应地,实证结果表明,与基准测试(ARIMA,BPNN,ELM,LSTM,GRU,TCN,EEMD-TCN和VMD-TCN)相比,所使用的VMD-ARIMA-CNN-TCN可以重复且显著地提高预测性能。所有统计测试的比较结果也揭示了所提出的框架的有效性。因此,基于PM2.5历史观测数据的复杂数据模式,如高波动性和不规则性,上述基于分解相关框架的预测结果证明,它是PM2.5预测领域中提高预测精度的一种有前途的策略和工具其中,VMD方法是一种有效的分解处理技术,可以减少原始数据的不稳定性,并采用排列熵对不同频率的分量进行重组此外,ARIMA模型和预测的低频成分,CNN是用来处理的中频成分,TCN是用来预测的高频成分。为了说明和验证的目的,兰州PM 2. 5数据被考虑在这个分解-集成-重构预测框架中。所开发的预测框架可以用于监测、预测空气质量状况(例如PM2.5浓度),以及基于数据模式检测主要空气污染源。该模型结构简单、易于实现、实用性强,可为政府部门制定合理的PM2.5减排措施提供理论依据和技术支持.基于上述预测结果
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功