基于深度学习的天气预报模式综述

141 浏览量更新于2024-01-27 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

制作和主办：Elsevier沙特国王大学学报基于智能预报器的确定性天气预报模式综述K.U.宾苏·贾塞纳科沃尔河印度喀拉拉邦科钦科技大学工程学院信息技术系阿提奇莱因福奥文章历史记录：收到2020年2020年9月5日修订2020年9月17日接受2020年9月24日网上发售保留字：人工神经网络深度学习自动编码器递归神经网络A B S T R A C T天气预报是根据不同的天气参数预测给定位置的大气状态的实践天气预报是通过收集有关大气当前状态的数据来进行的。准确的天气预报对气象学家和研究人员来说是一项具有挑战性的任务。天气信息在农业、旅游业、机场系统、采矿业和发电等生活的各个方面都是必不可少的。由于卫星气象观测等气候观测系统的进步以及天气数据量的快速增长，天气预报现在已经进入大数据时代。因此，传统的计算智能模型不足以准确地预测天气。因此，基于深度学习的技术被用来处理海量数据集，这些数据集可以基于过去的数据更有效地学习和做出预测。深度学习在各个领域的有效实施推动了其在天气预报中的应用，这是天气行业的一个重大发展。本文提供了一个彻底的审查不同的天气预报方法，以及一些公开的数据集。本文对天气预报模式进行了分类，并讨论了该领域未来的研究方向。©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。内容1.导言33942.相关调查33953.学生寮33954.天气预报框架33955.天气预报模型的分类33965.1.根据使用的方法5.1.1.统计模型5.1.2.人工智能模型33975.1.3.混合动力车型34035.2.基于待预测参数的分类34055.3.讨论3405*通讯作者。电子邮件地址：jaseena. gmail.com（K.U. Jaseena），binsu. gmail.com（不列颠哥伦比亚省）。Kovoor）。沙特国王大学负责同行审查https://doi.org/10.1016/j.jksuci.2020.09.0091319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comK.U. Jaseena和B.C. Kovoor沙特国王大学学报33946.结果与分析34066.1.开放天气数据集34066.2.评价标准34076.3.预测模型分析7.挑战和未来的方向34098.结论3410竞争利益声明参考文献3410命名法缩略语列表蚁群算法最小二乘支持向量机LSTM长短期记忆AI人工智能Mae平均绝对误差ANFIS自适应神经模糊推理系统MAPE平均绝对百分比误差安人工神经网络ML机器学习API应用编程接口MLP多层感知器Arima自回归移动平均MMO多目标优化Arma自回归滑动平均MMODA 改进的多目标优化算法BPNN反向传播神经网络MPR多元多项式回归CNN卷积神经网络MSE均方误差CRBM条件限制玻尔兹曼机NARX非线性自回归外生DBN深度信念网络NMAE归一化平均绝对误差DBNPF降水预报NMSE归一化均方误差DNN深度神经网络NOAA国家海洋和大气管理局榆树极限学习机OSORELM在线序贯离群鲁棒ELMEMD经验模态分解PSO粒子群优化ENNElman神经网络RBF径向基函数f-ARIMA 分数ARIMARF随机森林GARCH广义自回归条件异方差-RMSE均方根误差稳定性RNN递归神经网络GLM广义线性模型SAE堆叠式自动编码器GRNN广义回归神经网络SDAE堆叠去噪自动编码器GRUGated recurrent unitSSA奇异谱分析GSOD全球地表日摘要SVM支持向量机GSR太阳总辐射SVR支持向量回归HDT混合分解技术美国空军美国空军HMD混合模态分解VAR向量自回归IPSO改进PSOWPD小波包分解ISH综合地面小时1. 介绍天气预报是根据可靠的数据对大气状况如温度、湿度、露点、降雨量和风速气压计、雷达和温度计被用来收集天气预报的数据外部因素，如当前的天气状况，异常天气模式的数据，跟踪天空中的空气和云的运动，发现和验证气压的变化是天气预报的基本准确的天气预报信息对于保护人民和财产免受龙卷风、洪水和大风暴的威胁至关重要商业、旅游、体育、农业、采矿、电力、食品工业、机场和海军系统等各个部门严重依赖准确的天气预报。在农业方面，有关天气的先验信息有助于农民作出必要的决定，以提高作物产量。机场或海军系统需要连续的天气数据，以了解气候条件是否发生突然变化在风力发电过程中，准确的风速采矿业需要精确的天气信息来持续监测地壳日、周、月、年天气预报是一种重要的天气预报方式，它不仅能更好地反映气候变化趋势，而且能为微观管理决策提供及时、有效的环境信息此外，在特定情况下，准确的天气预报有助于防止洪水或干旱的发生（Salman等人， 2015年）。物联网、无线传感器网络、云计算等技术的快速发展，使天气预报进入了大数据时代。大数据技术有助于更准确地预测未来的气候状态。此外，随着深度学习技术的进步和适当的数据可视化方法，天气预报和气候预测可以更加有效和准确。因此，使用深度学习方法从天气数据中挖掘有价值的信息是合理的。深度学习技术使用神经网络层来从数据集中识别和提取有意义的特征。具有深度架构的神经网络可以准确地提取大数据的高级抽象特征（Gheisari et al.，2017年）。为了以非常有效的方式预测天气，已经提出了几种使用深度学习的天气预报模型。本文的主旨是K.U. Jaseena和B.C. Kovoor沙特国王大学学报3395是提供一个广泛的审查天气预报模型和各种技术和方法，目前使用的各种研究人员的天气预报。该文件的主要内容如下。(1) 各种天气预报模式的综合评述(2) 预报模式所用基本超参数的分析(3) 各种天气预报模式的精确分类(4) 使用统计误差指标探索各种模型的有效性(5) 为热衷于天气预报研究的初学者提供指导，并获得有关不同技术和可用开放数据集的知识。(6) 这篇综述讨论了这一领域未来潜在的研究方向。本文的组织结构如下。第2节概述了相关调查，第3节解释了拟议工作背后的动机。第4节介绍了拟议的框架，其中介绍了一般天气预报框架，然后在第5节中对天气预报模型进行分类。第6节调查了结果，第7节简要说明了挑战和未来方向。最后，第8节对本文进行了总结。2. 相关调查在本节中，我们将回顾与天气预报有关的一些调查。Gheisari等人（2017）对大数据及其研究方向进行了研究，并分析了适合大数据处理的各种深度学习架构，其挑战和未来趋势。Saima等人（2011）调查了各种天气预报模型，包括统计模型、人工智能模型和混合模型，并分析了它们的优缺点。Nagaraja等人（2016年）回顾了风能的预测模型，并试图找到可靠的预测模型来探索风能的潜力。Liu等人（2019）专注于使用机器学习预测器，深度学习预测器和混合模型的风速预测模型。用于天气预报的主要机器学习预测器是人工神经网络、支持向量机和极限学习机。深度学习预测器由自动编码器、递归神经网络和长短期记忆网络组成。这些方法的应用使时间序列预测成为可能.Kunjumon等人（2018）对基于人工神经网络、支持向量机和决策树的各种预测模型进行了研究Naveen和Mohan（2019）讨论了天气预报的各种应用领域，并使用机器学习技术研究了天气预报模型以及与天气预报相关的挑战。 Reddy 和 Babu （ 2017 ）使用MapReduce和机器学习模型分析了各种大数据天气预测模型。作者还讨论了与大数据天气预报相关的限制和问题，特别是降雨预报。Tran-Anh等人（2019）推荐了一种基于小波变换和季节性人工神经网络的改进降雨预测模型。作者还研究了预测月降雨量的不同方法Tar- ade和Katti（2011）提供了一个基于ARIMA、ANN和多项式曲线拟合的风速预测系统的综合研究Kulkarni等（2008）研究了适用于风速预测的各种统计方法的有效性实验结果表明，基于周期曲线拟合的外推法和人工神经网络法是比ARIMA法更好的风速预测模型Medina等人（2019）对使用ANN的需求预测模型进行了比较研究，并观察到与其他方法相比Rasp和Lerch（2018）研究了采用神经网络对集合天气预报模型进行后处理以确定德国温度的影响。Siami-Namini等人（2018）使用LSTM和ARIMA 对各种时间序列预测模型进行了广泛的调查 Hong 等人（2020）对能源预测模型进行了全面的回顾，并总结了当前的研究趋势以及用于能源预测研究的不同公开数据集。建议的框架提供了一个精确的分类，各种天气预报模式。该调查还提供了最先进的天气预报模型，其挑战和未来的发展方向。建议的框架是调查现有天气预报模型的一种不同方法，其中天气预报模型主要基于所采用的方法进行分类。该调查还根据要预测的天气参数对模型进行分类，并提供了可用于实验的开放数据集下一节详细介绍了调查背后的动机。3. 动机天气预报系统可以根据预报所采用的模型或方法分为三类，即统计模型、人工智能模型和混合模型。在这三类中，统计模型处理线性数据集。常用的统计模型包括ARMA、ARIMA及其变体。人工智能模型进一步分为机器学习预测器和深度学习预测器。机器学习和深度学习模型更适合处理非线性数据集。人工神经网络、支持向量机、极限学习机、自动编码器、卷积神经网络、递归神经网络和长短期记忆网络是用于天气预报任务的一些流行的人工智能模型。混合模型是两个或多个模型的组合，以进一步提高预测模型的性能。天气预报模型的主要目的是根据过去的数据预测温度、湿度、露点、降雨量和风速。对文献的分析表明，已经进行了几次与风速预测有关的调查。然而，有关温度、降水、露点、湿度等天气参数预报的可靠而全面的研究却少之又少，为此，本文对各种天气预报模式及其分类进行了广泛的4. 天气预报框架天气预报模型的一般框架如图1所示。天气预报框架的各个步骤包括数据采集、数据预处理、模型选择和训练、模型评估和结果可视化。由于物联网、无线传感器网络和云计算等新技术的快速发展，天气数据以各种格式和大量提供（Chavan和Momin，2017）。这些数据由大量有用和无用的信息组成，它们也是非结构化数据的形式收集数据后，后续步骤是预处理数据，K.U. Jaseena和B.C. Kovoor沙特国王大学学报3396Fig. 1. 天气预报模型的布局。删除不相关的和缺失的值，并获得干净的数据。数据预处理的主要形式包括数据清理、数据集成、数据精简和数据转换。数据预处理技术旨在提高输入数据的质量.在训练过程中，高质量的数据总是会产生高质量的输出。因此，在这个阶段，数据是为训练准备的。数据清理方法可以去除数据中存在的噪声、缺失值和不一致性。真实世界的数据通常包含缺失值。它可以由诸如未记录的值和数据损坏等问题引发。大多数预测算法不支持含有缺失值的数据。因此，缺失值插补是必要的，并且在大多数情况下使用平均值插补缺失值。数据集成过程将来自不同来源的数据合并到一个可理解的数据存储中。数据缩减可以通过聚合、消除冗余功能或集群来减少数据的大小。在数据转换步骤中，使用归一化或标准化技术对数据进行归一化，并将其转换为适合于处理的形式。数据转换技术不仅提高了挖掘算法的精度和效率，而且减少了模型的训练时间。这些预处理技术不是相互排斥的，因此，它们可以一起起作用。一旦数据被预处理，就使用数据集选择、训练和测试合适的预测模型。可以使用适当的算法进行有效的预测天气信息。模型选择和训练是任何预测系统中必不可少的一步。对各种预测模型的了解将有助于研究人员选择合适的预测模型。使用训练数据集选择和训练与应用领域匹配的合适的预测模型。训练完成后，使用统计定量误差指标（如MAE、RMSE、MAPE和R2）评估模型的性能。最后，使用合适的图将结果可视化。散点图、线图和半对数图可用于可视化结果。这些图可用于以图形方式分析实际值和预测值之间的差异。预测值与实际值的变化可以使用半对数图更精确地可视化。5. 天气预报模式分类天气预报系统根据多种因素分为不同的类别这些因素包括所涉及的变量的数量，预测的时间步长的数量，方法-所使用的方法、预测范围和要预测的参数。图2提供了基于上述各种因素的预测模型的完整分类。预测模型可以是单变量或多变量的，这取决于预测中涉及的变量的数量。例如，如果基于许多环境因素预测温度，则这种类型的预测可以被称为多变量。单变量模型仅依赖于一个变量，而多变量模型基于多个因素预测输出。除此之外，预测模型可以是单步或多步，这取决于要预测的时间步长的数量。单步预测模型预测未来的单个观测，而多步预测模型预测未来的多个时间步。天气预报方法根据时间范围分为四种短期和非常短期的预测被认为比中期或长期更准确此外，预测系统可以是两种基本类型，即确定性和概率性，基于预测所采用的方法。确定性方法提供特定位置的天气预报的准确值，而概率方法则表示天气事件的概率。本调查主要关注确定性预测模型。确定性预测模型又可分为统计模型、人工智能模型和混合模型。根据预报参数的不同，预报模型可分为气温预报模型、风速预报模型、降雨预报模型、露点预报模型、如图所示。二、在社会经济活动中，天气的影响是不可忽视的，准确预测天气状况可以预防不利事件的发生。在过去的几年里，已经提出了几种方法来处理这个目标。下一节将阐述天气预报模型的不同类别。5.1. 按所用根据预测方法的不同，确定性模型可以分为统计模型、人工智能模型和混合模型。5.1.1. 统计模型统计预报模型是线性模型，可用于非常短期的天气预报。统计预报允许使用过去的天气数据进行天气预报。线性K.U. Jaseena和B.C. Kovoor沙特国王大学学报3397图二.预测模型的分类。回归是一种统计模型，用于发现研究变量与一个或多个解释变量或自变量之间的线性关系。线性回归可以分为两种类型，即简单和多重。简单线性回归便于寻找两个连续变量之间的统计关系，其目的是得到一条最适合数据的直线总预测误差尽可能小。采用梯度下降优化算法使误差尽可能小。多元线性回归与简单线性回归的不同之处在于，研究参数取决于多个独立参数。ARMA，ARIMA，多元回归和VAR是一些常用的统计模型。ARIMA被认为是一种使用时间序列数据来预测未来观测值的统计模型。向量自回归也是一种用于预测时间序列向量的统计模型。VAR模型是一元自回归模型的广义多元形式。该模型在预测相关变量的集合Tarade和Katti（2011年）以及Kulka-rni等人（2008年）研究了基于各种统计方法的风速预测系统。Khashei和Bijari（2011）提出了一种将线性模型ARIMA和非线性模型ANN相结合的模型，发现它们比传统的单个模型更有效。它可以作为一种混合模型应用于时间序列预测领域，特别是当需要更高的预测精度时。Zaw和Naing（2009）提出了一种使用多变量多项式回归（MPR）的降雨预测模型，并将该模型的性能与多元线性回归模型进行了比较。Kavasseri和Seetharaman（2009）提出了一个使用分数ARIMA的美国北达科他州风速和功率预测模型，并将预测模型的性能与持续性模型进行了比较。Erdem和Shi（2011）提出了基于ARMA的风速预测模型，对ARMA、VAR和限制VAR进行了分解，并在从北达科他州风电场收集的两个数据集上研究了这些模型的性能。Liu等人（2011）利用从美国科罗拉多州收集的7年逐时数据，提出了一种使用 ARMA-GARCH 方法的风速预测模型。 Liu 等（2012）分别提出了ARIMA与ANN、ARIMA与Kalman相结合的风速预测模型，并分析了这些模型在多步预测中的有效性Chen等人（2009年）使用ARIMA建立了一个预测风力发电的系统模型。Suhartono等人提出了一个使用ANFIS和ARIMA的（2012）预测印度尼西亚的月降雨量Cadenas等人（2016）推荐了一种借助单变量ARIMA和多变量NARX模型的风速预测系统。表1提供了文献中讨论的统计模型使用的参数和度量。5.1.2. 人工智能模型人工智能的发展激发了智能预测模型的发展。这些模型被证明是强大的和有效的统计模型相比人工智能模型能够有效地处理非线性数据集，并表现出更好的预测性能。这些模型进一步分为机器学习预测器和深度学习预测器，如图所示。二、5.1.2.1. 机器学习预测器。机器学习和深度学习模型是处理非线性数据集的更好模型。ANN、SVM、ELM和随机森林是一些用于天气预报的流行机器学习预测器。在本节中，介绍了使用机器学习技术的各种天气预测系统。它们包括基于ANN的模型，基于SVM的模型和其他ML模型。5.1.2.1.1. 基于ANN的模型基于神经网络的模型具有监督性和预测性，被认为是最流行的天气预测技术之一，因为它们可以捕捉过去天气趋势和未来天气状况的非线性关系。神经网络是非线性的K.U. Jaseena和B.C. Kovoor沙特国王大学学报3398.X表1统计模型使用的参数总结算法使用的参考参数使用温度风速度风向空气压力湿度降水雨露点臭氧R2MSERMSE梅梅ArimaArima（Tarade和Katti，2011）（Kulkarni等人，（ 2008年）UUUUMPR（Zaw和Naing，2009年）UUf-ARIMA武装部队，（Kavasseri和Seetharaman，2009年）（Erdem和Shi，2011年）UUUUVARARMA-GARCHARIMA-KF（Liu等人，2011）（Liu等人， 2012年）UUUUU UARIMAARIMA，ANFISARIMA，（Chen等人，2009）（Suhartono等人，2012年）（Cadenas等人，（2016年）UUUUUUUNARX输入层隐藏层输出层图3.第三章。神经网络的结构具有快速信息处理能力的回归模型，并建立输入和输出变量的映射。人工神经网络由称为节点的神经元网络组成，这些神经元相互连接。在每个节点内，采用transfer函数将输入转换为输出。图3示出了单个隐藏层神经网络的架构。通常，神经网络系统包括输入层、输出层和隐藏层。输入层中的节点接收信息，使用激活函数转换此信息，并将其传递给下一个节点。每个节点聚合它获得的值，然后根据其激活函数转换结果。这些转换后的值从输入层流经隐藏层，直到到达输出节点。在第i层的神经网络的输入X和输出Y之间的关联可以表示为等式（1）。激活功能。计算预测值和实际值之间的差异，并且通过使用优化算法（如梯度下降）调整权重以最小化误差来向后传播该误差采用优化算法，因为它们在构建高效的神经网络中是必不可少的。在本小节中，介绍了不同作者提出的使用人工神经网络开发的各种天气预报模型。Nayak等人（2012）提出了一种用于天气预报的神经网络模型，并将结果与SVM和模糊逻辑进行了比较。Liu等人（2018）提出了一种基于神经网络方法的温度预测模型，并研究了神经网络在入侵检测中的重要性。Hung et al.（2009）提出了一种基于人工神经网络的实时降雨预报模型，用于管理泰国曼谷的洪水，所提出的模型显示出比持续模型更好的预报精度。Kashiwao等人（2017年）观察到，人工神经网络在预测降雨概率方面提供了更准确的结果。Abhishek等人（2012年）提出了一种使用人工神经网络进行日常天气预报的有效可靠的非线性预测模型，并比较了使用不同激活函数、隐藏层和神经元预测最高温度的拟议模型的性能。测试通过改变神经元和隐藏层的数量进行，并得出结论，性能随着隐藏层的数量而增加。Mislan等人（2015年）提出了一种用于印度尼西亚东加里曼丹省Tenggarong地区准确降雨预测的双隐层反向传播神经网络算法采用度量均方误差来衡量预测任务的性能。Khajure 和 Mohod（2016）提出了一种使用神经网络结合模糊推理系统的未来天气预测模型。神经网络使用不同的天气参数组合进行训练，如湿度，温度，温度、压力、风速、露点和能见度，然后Yi¼ gn第1页我爱你！ð1Þ将预测值应用于模糊推理系统。采用神经模糊系统相结合的方法提高了预测精度。其中Wij表示与神经元之间的连接相关联的权重，bi表示神经元i的偏置，g表示Suksri和Kimpan（2016）提出了一种使用人工神经网络预测日平均值K.U. Jaseena和B.C. Kovoor沙特国王大学学报3399NNNNX.ΣðÞX.ΣK KJ.J.J.2ðÞð Þ8><-。- ≤ þX.Σajenj-yjwT£xj布aωj enωjyj-wT∈xj- -最大化-2ai-aωiaj-aωjaiaωi{\fn黑体\fs22\bord1\shad0\3aHBE\4aH00\fscx67\fscy66\2cHFFFFFF\3cH808080}{\fnarialblack\fs12\bord1\shad0\4aH00\fscx90\fscy110}{\fnarialblack\fs12\bord1\shad0\4aH00\fscy110}{\fnarialblack\fs12\bord1\shad0\4aH00\fscx90\fscy110}{\fnarialblack\fs12\bord1\shad0\4aH00\fscx90\fscy110}{\fnarialblack\fs12\bord1\shad0\4aH00\fscx90\fscy110X@nωjjj第1页1/1N1/1温度，其中烟花算法被用来优化，jnj ¼.0ifjnj≤ eð5Þ焰火算法是一种新型的群智能优化算法。 Narvekar 和 Far- gose（2015）提出了一种使用人工神经网络和反向传播算法的天气预报模型，其中不同的输入参数采取成审议温度，相对湿度、气压、风速和风向、云量ejnj -e否则对偶设计允许SVR扩展到非线性函数。优化问题可以通过使用如等式（6）中的拉格朗日形式来进一步扩展。NN12X。第十章和降雨。通过确定均方误差来评估模型的效率。Akbar等人（2018）提出了一个ANN-第1页第1页.ΣΣ基于模型的预测油产量在姜黄，和结果。证实了所提出的神经网络模型具有较好的性能。Wollsen和Jorgensen（2015）提出了一种新方法第1页.ΣΣX.Σ利用NARX（非线性自回归外生）和ANN模型预测未来天气。Filik和Filik（2017）描述了一种基于人工神经网络的模型，该模型使用风速、温度和压力值等天气参数来预测风速，并研究了这些参数的影响。Sobrevilla（2016）开发了一种基于人工神经网络的每日天气预测模型，并分析了变量ai;aωi 拉格朗日乘数。还假设aj;aωj;gj;gωj ≥0。方程（6）可以通过取L关于变量（b，w，nj，nωj）的偏导数来简化，基于Karush-Kuhn-Tucker（KKT）条件（Smola和Schölkopf，2004），如等式（7）-（10）中所分析了缺失值填补在数据集中的重要性。据认为，所提出的模型产生合理的准确性。5.1.2.1.2. 基于svm模型SVM是一个有监督的机器@L@b¼Xj1/4.aωj-ajN¼0 ð7Þ学习算法，可以解决分类和回归-@L½w-X。aj-aωε。xj08任务（Awad和Khanna，2015; Kavitha等人， 2016年）。SVM是@w由具有到训练数据样本的最高最小距离最优超平面是@LJ第1页具有最大训练数据余量的超平面。与超平面相邻的训练样本称为支持向量.支持向量机可以使用“核技巧”有效地找到非线性解决方案内核是将输入转换为必要格式的数学函数。SVM算法采用的各种核函数可以是线性的，非线性的，@n<$C-aj-gj<$0<$9mm@L<$C-aω-gω<$0<$10μ m等式（6）可以通过代入下面给出的等式（7）多项式、径向基函数和sigmoid。（1XN） .- 是的 ΣLi;j¼1不.ΣX.Σ使用等式（2）从输入数据x得到y。yfxwTxb2Xi¼1是的。ai-aωi<$）使得Nai-aωi1/11/40和ai;aωis1/20;C]11其中，表示非线性映射函数，其将输入数据映射到高维特征空间。变量W和b分别是权重向量和偏置。e-SVR的目的所有训练数据的目标yj。该问题可以定义为如等式（3）中的凸优化函数。从方程（11）中消除对偶变量gj;gωj，在等式（9）和（10）中陈述的条件。根据等式（8），参数w可以被定义为如等式（12）所示的训练样本yi的非线性组合。Nw¼ai-aωi £100x100x 1001/112（yj-wTe. xj-b≤e然后，可以使用等式（13）来定义目标函数fx。最小化2kwk受wT£. xjb-yj≤eð3ÞX.电子邮件当函数f（）以精确度逼近所有训练对（xj，yj）时。然而，为了处理不可行的约束，两个松弛变量-给出了表nj和nωj。因此，方程（3）可以通过包括如方程（4）所示的松弛变量来扩展。最小化1 w2CPN .ωsubjectto核函数kxi;x可以被定义为如等式（14）中的非线性映射的线性点积。kxi;xxix14因此，等式（13）中给出目标函数fx可以被重写为等式（15）。第1页yjwT^xj benjw T£. x<$$> b-y ≤ e<$nωJJJð4ÞNfxai-aωikxi;xb1 51/1ni;nωi≥0变量C和e是预定义的参数，应该大于0。C是正则化参数。上述回归公式处理e-密集损失函数jnj2，并如等式（5）中所定义.在本节中，各种天气预报模型的发展-使用SVM。支持向量机在有限的训练样本数下表现出令人满意的精度。因此，Du et al.（2017）推荐了一种基于SVM的降水预测模型，其中采用粒子群优化（PSO）算法来优化SVM模型的超参数JL¼2 kw kCQCnj<$nωj---gjnj<$gωjnωjð6Þ令（xj，yj）为训练数据集，其中j从1到N变化，N表示样本的数量。SVR算法计算出-上述凸优化问题是可行的fxai-aωi£100x100£100x100b100>：K.U. Jaseena和B.C. Kovoor沙特国王大学学报3400b我Yu等人（2016）提出了一种基于最小二乘支持向量机（LSSVM）的新型温度预测模型，其中IPSO算法优化了LSSVM的参数。比较了IPSO-LSSVM与SVM、ANN模型的性能。Rasel等人（2017）推荐了一种使用SVM和ANN的天气预报模型来预测孟加拉国吉大港的天气，结果表明SVM在降雨预测方面优于ANN。Lu and Wang（2011）提出了一个使用支持向量机的降雨预测模型，用于预测中国的月降雨量。据作者说，该模型的准确性被证明是非常有前途和令人鼓舞的。Shabariram等人（2016）开发了一种工具，用于使用支持向量机以有效的方式从大量降雨数据中预测暴雨。5.1.2.1.3. 其他ML模型随机森林是一种可靠的高维数据集成分类器，并被证明是更好的天气预报。Singh等人（2019）提供了一个使用随机森林算法的天气预测系统。Ahmed（2015）开发了一个预测给定日期降雨、平均温度和最大风力可能性的模型。作者使用了朴素贝叶斯、简单随机森林、J48和IB1等分类器进行实验。Hasan等人（2016）提出了一种预测模型，其中C4.5学习算法用于预测天气事件。Stern（ 2008 ）为澳大利亚墨尔本提供了一个中期天气预报模型。Mohammadi等人（2015）提出了一种基于极端学习机的露点温度预测模型。并与SVM和ANN模型进行了比较。仿真结果表明，基于ELM的模型优于SVM和ANN模型。用于测量准确度的误差指标是平均绝对偏差误差、均方根误差和相关系数R。Kurniawan等人（2017）推荐了一种基于模糊逻辑算法的天气预报系统。本文还介绍了一种基于天气预报的植物浇水方法。该气象计算系统将有助于通用农业自动化控制系统的自动化工作。Juneja和Das（2019）提出了通过应用预处理技术来提高数据集质量的方法。基于大数据技术的天气预测模型，如下所述在大数据时代，传统的数据处理方法已经被大数据技术所取代。 Ismail等人（2016）提出了一种基于MapReduce算法的温度预测分析大数据框架。Radhika et al.（2017）概述了支持气候研究地球科学领域大数据管理和调查的一些策略。本文还讨论了HBase在分布式机器上存储和管理基本地球科学数据的概述。有各种技术可以管理地理空间领域的大数据，这些技术包括数据融合，众包，聚类分析和机器学习。Jayanthi和Sumathi（2017）以及Adam等人（2017）分别使用MapReduce 算法和 Spark 开发了用于天气预报的大数据框架。Suryanarayana等人（2019）使用大数据技术Hadoop MapReduce构建了一个天气预报系统。Pandey等人（2017）研究了大数据在天气预测领域的应用，提出了一种基于Hadoop的天气预测模型，用于有效处理和预测天气数据。采用词计数算法对天气数据进行预处理。两个数据挖掘工具，模糊逻辑和ANFIS方法，应用于准确预测的天气数据。实验结果表明，与其他方法相比，ANFIS方法给出了更准确的结果。各种应用领域，可以受益于天气预报使用Himanshi和Raksha（2017）描述了大数据分析，并解释了天气预报所面临的挑战。Navadia等人（2017）提出了一个使用Hadoop上的Apache PIG的预测分析模型来预测降雨的可能性。建议的系统作为一个工具，需要在降雨数据作为输入，并有效地预测未来的降雨。表2总结了机器学习预测器使用的参数和度量。5.1.2.2. 深度学习预测器。深度学习是机器学习的一个子类，它使用人工神经网络方法从海量数据集中获取智能，它主要利用深度架构中的监督或无监督策略来自动学习分层表示。使用深度学习技术可以更准确地处理大数据。深度学习模型已成功应用于许多领域，如对象检测、语音识别、视觉对象识别、基因组学和时间序列预测。深度学习技术对于时间序列预测更可靠，因为它们能够学习时间序列数据中存在的时间依赖性。深度学习使用具有深度架构的神经网络，这些架构由多层非线性处理阶段组成。每一层的输出作为下一个更高层的输入。图4示出了具有四个隐藏层的深度神经网络的架构。具有许多隐藏层的前馈神经网络或MLP确实是具有深层架构的模型的一个很好的例子。深度学习是当今一个充满活力的研究领域，微软、谷歌、IBM和Facebook都在这一领域进行积极的研究（Deng，2014）。自编码器和递归神经网络是用于时间序列数据的流行深度学习架构。5.1.2.2.1. 自动编码器。自动编码器是一个神经网络基于无监督的机器学习算法。此外，它重建输出值与输入值相同。一个自动编码器有三层，输入层，隐藏层和输出层.隐藏层对输入进行编码以获得隐藏表示，并且输出层对隐藏表示进行解码。网络的训练方式是通过学习输入的抽象表示来将其输入重构为输出。由于自动编码器会重新构造其输入，因此输入层和输出层的维数必须相等。自编码器是前馈神经网络的一种形式，有两个组件，即编码器和解码器。编码器部分将输入xi编码为隐藏模式h，如等式（16）中给出的。解码器部分如等式（17）中那样从隐藏模式解码输入。自动编码器使用的损失函数是平方误差损失函数，并且在等式（18）中定义。权重、偏置和重构输入由W、b和b表示。x分别。激活或传递函数用g和f表示。采用反向传播算法对网络进行训练。自动编码器的主要应用包括数据的降维和去噪（Goodfellow等人，2016年）。自动编码器可以有两种类型，不完全自动编码器和过完全自动编码器.不完全自动编码器在隐藏层中的神经元数量少于输入层，用于特征提取和降维任务。而过完备自编码器在隐藏层中的神经元数量比输入层更多。示出了两层堆叠式不完全自动编码器的结构在图5中。该图显示了两个部分，编码器部分将输入编码为隐藏模式，解码器部分从隐藏模式重建输入。自动编码器可以同时线性和非线性变换。h¼gWxib 16表2机器学习模型使用的参数摘要方法学算法使用参考参数使用温度风速风向气压湿度降水量降雨露点臭氧R2MSE RMSE MAE MAPEANN模型安（Tran Anh等人， 2019年度）UUU安（Tarade和Katti，2011）UU安（Kulkarni等人，（ 2008年）UU安（Nayak等人， 2012年）UUUUU安（Liu等人， 2018年）UUU安（Hung等人，（2009年）UUU安（Kashiwao等人，（2017年）UU安（Abhishek等人， 2012年）UUU安（Mislan等人，（2015年）UU安（Khajure和Mohod，2016）UUUUU烟花-ANN（Suksri和Kimpan，2016）UUUUUUU安（Narvekar和Fargose，2015） UUUUUUUUSVM模型安粒子群优化支持向量机SVM（Filik和Filik，2017）（Du等人，（ 2017年）（Yu等人，（2016年）（Rasel等人，（2017年）UUUUUUUUUUUSVM（Lu and Wang，2011）UUUSVM（Shabariram等人，（2016年）U其他ML模型RF（Singh等人， 2019年度）UURF（艾哈迈德，2015年）UUUUC4.5（Hasan等人，（2016年）UUUUUU榆树MapReduce（Mohammadi等人，（2015年）（Ismail等人，（2016年）UUUUUMapReduce和Spark（Suryanarayana等人， 2019年度）UUUMapReduce（Pandey等人，（2017年）UUUUApache Pig（Navadia等人，（2017年）UUK.U. Jaseena和B.C. Kovoor沙特国王大学学报3401K.U. Jaseena和B.C. Kovoor沙特国王大学学报3402Bnnmi¼1见图4。深度神经网络的结构。xi¼f17堆叠自动编码器是通过堆叠多个自动编码器产生的，其中每一层的输出都链接到输入J2000min1XX. ^xij-xij218第1页去噪自动编码器、堆叠自动编码器、堆叠去噪自动编码器和变分自动编码器是自动编码器的一些形式。自动编码器的主要目标是将输出设置为与输入相同。然而，有时重建永远不会确保完美的结果。这可能是因为提取过程中的信息丢失。去噪自动编码器从输入的损坏版本中再现纯输入图五. 堆叠式自动编码器的架构。的后续层。堆叠自动编码器的训练是使用贪婪逐层策略执行叠加去噪自动编码器是一个去噪自动编码器堆叠一起在对所有层进行预训练之后，对整个网络进行微调。与普通的自动编码器不同，变分自动编码器是生成模型，将随机数作为输入并生成图像作为输出。5.1.2.2.2. 递归神经网络RNN和LSTM等深度学习架构是用于时间序列预测的根深蒂固的模型递归神经网络不适合学习时间序列数据中存在的长期依赖关系，只能用于精确学习短期依赖关系这是因为递归神经网络遭受消失和爆炸梯度（尼尔森，2015）。当传递函数的梯度变得太小或太大时，这种不稳定的梯度问题可能发生这使得RNN很难训练，也阻止了它捕获长期依赖关系。这些缺点可以使用LSTM网络来纠正，LSTM网络是递归神经网络的一种变体形式。基于LSTM的架构能够更精确地捕获长期依赖关系。Hochreiter 和 Schmidhuber 在 1997 年熟悉了 LSTM 网络（Hochreiter和Schmidhuber，1997）。除了输入和输出层，LSTM网络还包括一个或多个隐藏

下载后可阅读完整内容，剩余1页未读，立即下载