COVID-19病例预测与LSTM模型：海湾合作委员会国家的天气特征影响分析

68 浏览量更新于2024-01-02 收藏 2.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用15（2022）200093天气状况和COVID-19病例：来自海湾合作委员会国家的达纳岛Abu-Abdouna，*，Sameh Al-Shijiaha，ba工业工程和工程管理系，沙迦大学，邮政信箱沙迦，27272，阿拉伯联合酋长国b约旦大学工程学院工业工程系，安曼11942，约旦A R T I C L EI N FO保留字：COVID-19LSTM网络预测GCC国家天气条件A B S T R A C T新冠肺炎病例的预测对许多国家的决策者至关重要。研究人员不断提出新的模型来预测这一大流行的未来趋势，其中长短期记忆（LSTM）人工神经网络与其他预测技术相比表现出相对优越性。此外，本集团已探索COVID-19传播与外生因素（特别是天气特征）之间的相关性，以改进预测模型。然而，在将天气特征纳入COVID-19预测模型方面，报告了相互矛盾的结果。因此，本研究比较了单变量与双变量和多变量LSTM预测模型预测COVID-19病例，其中后者模型考虑了天气特征。LSTM模型用于预测海湾合作委员会6个国家的COVID-19病例。采用均方根误差（RMSE）和决定系数（R2尽管气候条件相似，但与COVID-19病例相关性最强的天气特征在六个国家之间存在差异。此外，根据进行的统计比较，通过包括天气特征获得的改善在RMSE值方面是微不足道的，在R2值方面是微不足道的。因此，可以得出结论，单变量LSTM模型与最好的双变量和多变量LSTM模型一样好;因此，不需要包括天气特征。此外，我们无法确定一个单一的天气特征，可以持续提高预测的准确性。1. 介绍世界卫生组织（WHO）于二零二零年三月十一日宣布冠状病毒病（COVID-19）为大流行病（WHO，二零二零年）。导致COVID-19的严重急性呼吸综合征冠状病毒2（SARS-CoV-2）于2019年12月首次出现在中国湖北省武汉市（Bodapati et al.，2020年）。从那时起，COVID-19导致了重大的公共卫生危机（Wang et al.， 2022年）。截至2022年2月，COVID-19确诊病例数已达4.22亿例（Organization etal.， 2022年）。与许多其他呼吸道病毒一样，SARS-CoV-2通过呼吸道飞沫、人与人接触和气溶胶传播传播（Yin et al.，2022年）。根据疾病控制和预防中心，身体接触，例如接触携带病毒颗粒的表面，是另一种病毒传播机制（Al-Qaness et al.，2020年）。几项研究已经证明，天气特征可以影响呼吸道感染的传播和稳定性（Choi等人，2021;Liu等人，2020年）。例如，环境湿度是一种天气特征，可以改变呼吸道飞沫的寿命和大小可能将液滴的尺寸减小到使其落到地面的程度，或将其保持在空气中以使其被吸收到易受伤害个体的呼吸道中（El Hassan等人，2022; Pica和Bouvier，2012）。此外，发现温度是影响中国武汉COVID-19爆发的重要因素（Chen etal.，2020年）。 Liu等人（2020年）证实了这一发现，证明COVID-19中国17个城市的病例与气温有关。Liu等人（2020年）还发现，环境温度升高1摄氏度会导致每日报告的COVID-19病例下降。印度也报告了温度对COVID-19病例传播的影响（Sharmaet al.，2020）和印度尼西亚（Tosepu等人，2020年）。除了温度，研究人员还证明了天气特征，如湿度可影响COVID-19 的传播（Bhimala等人，2020; Chen等人，2020;Gupta 等人， 2020;M′endez-Arriaga ， 2020;Oliveiros 等人，2020; Wang等人， 2020年）。天气状况与COVID-19传播之间的这种关联然而，其他学者否认了这种关联（Briz-Red o'n 和Serrano-Aroca，2020;Iqbal等人，2020年;贾汉吉里* 通讯作者。https://doi.org/10.1016/j.iswa.2022.200093接收日期：2022年2月2日;接收日期：2022年6月11日;接受日期：2022年6月15日2022年6月18日在线提供2667-3053/© 2022作者。出版社：Elsevier Ltd这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsD.I. Abu-Abdoun和S. 希耶什智能系统与应用15（2022）2000932例如，因此，在开发COVID-19预测模型时必须完全忽略天气条件。COVID-19病例的预测对决策者至关重要，他们必须实施适当的预防措施，如封锁和远程学习，以阻止病毒的传播，同时保持正常的经济活动。一些研究人员研究了用于预测COVID-19病例的人工神经网络（ANN）变体，其中之一是长短期记忆（LSTM）网络，这是一种特殊类型的ANN网络，可以处理时间序列。单变量LSTM网络（Chatterjee等人，2020; Direkoglu和Sah，2020; Elsheikh等人，2021; Hartono，2020; Vadyala等人，已根据先前公布的COVID-19数据，使用新冠肺炎疫情（2020年）预测COVID-19病例及死亡人数。某些研究人员通过使用多变量LSTM网络将气象条件与COVID-19数据一起纳入LSTM预测模型，以预测COVID-19病例（Batool和Tian，2021年; Khennou和Akhloufi，2021年）。如前所述，关于天气状况在预测新冠肺炎病例中的作用，存在相互矛盾的意见。因此，在这项研究中，我们通过比较考虑天气条件的LSTM预测模型与忽略天气条件的预测模型的准确性来研究这些矛盾。我们分析了海湾合作委员会（GCC）国家，其中包括阿拉伯联合酋长国，阿联酋、沙特阿拉伯王国、巴林、科威特、卡塔尔和阿曼.选择海湾合作委员会是由于其在天气条件、高COVID-19检测率以及为遏制病毒传播而采取的预防性政策方面的相似性。此外，与病例数量相比，海湾合作委员会国家的高检测率使其成为可靠的研究对象（Al-Shiagh和Abu-Abdoun，2021）。本研究旨在回答以下研究问题（RQ）：1. （RQ 1）：天气对COVID-19传播的影响在天气条件相似的国家是否应该相同？2. （RQ 2）：通过在双变量或多变量LSTM预测模型中包含相关天气条件，仅考虑COVID-19病例的LSTM预测模型的准确性是否会得到提高？为了回答RQ 1，我们（i）研究了天气状况与COVID-19病例之间的相关性，以及（ii）比较了几个双变量和多变量LSTM模型在预测未来COVID-19病例数量方面的准确性。令人惊讶的是，这六个国家提供了关于天气条件的不同答案，这些天气条件将与COVID-19病例一起纳入开发最准确的LSTM预测模型。为了回答RQ 2，在为每个GCC国家确定最佳二元或多元LSTM模型后，我们将这些模型与仅考虑COVID-19病例的单变量LSTM模型进行了比较。使用两个准确性指标，我们发现，只有三个国家的预测准确性有所提高，这些改进并不具有统计意义。因此，天气特征不需要被视为用于预测COVID-19病例的LSTM模型本研究的主要贡献如下：（一）单变量研究了预测海湾合作委员会国家COVID-19病例的LSTM模型。（ii）研究海湾合作委员会国家COVID-19病例与天气状况之间的相关性（iii）开发了多个双变量和多变量LSTM模型，以预测海湾合作委员会国家的COVID-19病例，其中包含最相关的天气特征。(iv)将单变量LSTM模型与最佳双变量和多变量LSTM模型进行比较，以回答RQ 1和RQ 2。此外，使用Keras调优算法优化LSTM模型的配置可以被认为是本研究的一个小贡献。这项研究的一个局限性是，它只考虑了海湾合作委员会国家的LSTM预测模型。本文的其余部分组织如下。第二部分是文献综述。第3节概述了数据集来源，第4节描述了所进行的实验。最后，在第5中总结了结论和未来的工作。2. 文献综述用于预测COVID-19传播的技术可以分为三大类：机器学习模型、统计模型和使用分区数学的数学模型（Mohamadou et al.，2020年）。在房室数学模型中，最流行的预测COVID-19传播的模型是暴露-感染-清除（SEIR）和感染- 恢复（Pandey等人，2020; Ranjan，2020; RSY，2020）。用于预测COVID-19传播的统计技术示例包括简单技术，如移动平均、加权移动平均和单指数平滑方法（Elmousalami和Hassanien，2020年），以及先进技术，如自回归综合移动平均（ARIMA）方法（Roy等人，2021; Talkhi等人， 2021年）。机器学习预测技术是更准确比统计模型，并且LSTM模型的优越性已经被证明（Assaf等人，2020年）。因此，在以下小节中，我们重新审视了用于预测COVID-19传播的相关机器学习技术。本综述仅限于与本研究相关的方法;因此，我们专注于LSTM预测模型以及天气特征对提高预测准确性的影响。2.1. 机器学习相关的预测技术机器学习算法已被应用于COVID-19传播的预测和建模。Malki等人（2021）使用决策树和线性回归的混合预测模型预测2021年9月第一周COVID-19在12个国家的传播。Ribeiro等人（2020）评估了随机森林和支持向量回归模型在预测巴西COVID-19累积病例方面的效率。Sultana等人（2022）采用线性回归、多层感知器（MLP）和向量自回归来预测印度的各种COVID-19疫情。Alali等人（2022）的一项研究使用了随机森林、支持向量机（SVM）和其他机器学习算法来预测印度和巴西的确诊和治愈COVID-19病例。最后，在Dairi等人（2021 a）最近的一项研究中，提出了一种无监督检测器，该检测器将用于特征提取的变分自动编码器与SVM算法集成在一起，以使用常规血液检测来检测COVID-19病例在机器学习技术中，基于人工神经网络的在预测COVID-19病例方面优于其他方法（Shetty和Pai，2021年）。ANN是基于生物神经系统的机制开发的（Maind等人，2014年）。已经提出了几种人工神经网络变体来预测不同地区的COVID-19行为。Tamang等人（2020）使用人工神经网络构建了印度、美国、英国和法国确诊和致命COVID-19病例的预测模型，而Lounis等人（2021）开发了逆人工神经网络模型来估计阿尔及利亚的COVID-19病例、死亡和康复情况前馈神经网络和MLP是人工神经网络的形式，已用于预测COVID-19在印度的传播速度（Chakraborty等人，2020; Shetty和Pai，2021）和整个美国大陆（ Mollalo 等人， 2020 年）。 Rizk-Allah and Hassanien（2020）提出了一种混合预测模型，将多层前馈神经网络与内部搜索算法相结合，以预测COVID-19在美国、意大利和西班牙的传播。另一种ANN变体是卷积神经网络（CNN），其已用于预测中国确诊的COVID-19病例数（Huanget al.，2020年）。同样，Mohimont等人（2021）开发了多个CNN模型来预测法国的COVID-19累积病例、每日病例、死亡和康复情况。研究人员还采用了自组织映射（SOM）网络，这是一种被认为是数据聚类理想的ANN形式（Ghaseminezhad和Karami，2011）。例如，几位研究人员（Hartono，2020; Melin和Castillo，2021）将SOM网络应用于COVID-19D.I. Abu-Abdoun和S. 希耶什智能系统与应用15（2022）2000933表12019冠状病毒病预测模型和天气状况摘要。表1（续）参考研究机器-天气结果参考研究区域机器学习模型气候特点天气影响区域学习模型特征天气影响西北阿卜杜勒卡里姆等人（2021年）韩国CNN，决策树，贝叶斯网络温度、湿度、风速、降水量温度、湿度、风和降水对预测COVID-19的例在印度的地区。* 温度对COVID-19的分布在印度高湿度地区。Da Silva等人（2020年）巴西、美国贝叶斯回归，立体回归，k-最近邻，随机森林，支持向量气温和降水温度和降水量提高了COVID-19的准确性预测模型RashedandHirata（2021）日本LSTM模型温度，湿度在LSTM模型中合并温度，湿度数据报告了准确的预测。Karimuzzaman等人（2020年）9国家机器ARIMA，MLP，极限学习机，广义线性计数器温度、风速、气压、湿度、降水量温度和湿度影响COVID-19所有研究病例中J. etal. （2020）美国Shallow LSTM模型紫外线，温度、感知、臭氧、露水和湿度预测模型的准确性不受天气条件数据的影响。Malki等人（2020年b）法国、英国随机森林温度，湿度、日照时间、风速除了意大利和斯里兰卡。天气变量影响了预测模型伊洛阿努西和罗斯（2021）20国家LSTM，随机森林，温度，降雨、风速、辐照、湿度温度提高了大多数研究国家预测模型的准确性。Ronald Doni等人（2021年）印度ConcurrentANN，递归神经网络，双方向神经网络温度、露水、湿度与其他变量相比天气特征增强了模型的预测能力。Gupta等人（2021年）卷积神经网络温度、风速、阳光、湿度只有温度、风速和阳光增强了CNN模型的性能。Pramanik等人（2020年）Khennou和俄罗斯随机森林温度，湿度、风速、日照加拿大LSTM模型温度，随机森林模型提供了准确的预测与天气特征。传播和预测COVID-19病例。2.2. LSTM预测模型LSTM是递归神经网络（RNN）的改进版本。2021年：Akhloufi温度湿度和湿度增加了COVID-19的准确性预测模型其用于解决RNN中的缩放问题（Sundermeyer等人，2012年）。LSTM网络可以很容易地处理时间序列，因为它们具有很高的学习依赖关系和分析长时间大量数据的能力（Marzouk等人，2021年）。因此，各种基于LSTM网络的预测模型从一开始就得到了应用。新冠肺炎疫情的影响LSTM预测模型已经被Ara gZhao等人（2022年）BatoolandTian（2021）Bhimala等人（2020年）巴西LSTM模型温度，湿度巴基斯坦LSTM模型Temperature，湿度印度LSTM模型温度，湿度LSTM模式l包括天气状况数据。具有天气数据的LSTM模型实现了最高的准确性。* 特定湿度会影响COVID-19的传播，西部和用于预测COVID-19病例、死亡和康复（Bodapati等人，2020; Direkoglu和Sah，2020; Elsheikh等人，2021; Yudistira，2020）。Ghany等人（2021）建立了两个单变量LSTM模型来预测海湾合作委员会国家的COVID-19病例和死亡。双向和编码器-解码器LSTM是LSTM的改进版本。前者使信息能够从后向层和前向层流动（Zeroual等人，2020），而后者是流行的序列到序列网络，其提供了用于序列数据建模的简单且自动化的方法（Du等人，2020年）。Chandra等人（2021）使用编码器-解码器和双向LSTM网络在印度进行短期COVID-19感染预测。此外，Aldhyani和Alkahtani（2021）提出了一个双向LSTM模型，根据海湾地区COVID-19的先前趋势预测海湾合作委员会国家的COVID-19病例和死亡。 Pustokhin等人（2020）提出了一种基于双向LSTM网络的新型残差网络，用于COVID-19检测。残余D.I. Abu-Abdoun和S. 希耶什智能系统与应用15（2022）2000934表2海湾合作委员会国家的人口和气象信息国家人口区域温度湿度风速露点（百万）（平方公里）最大Min最大Min最大Min最大Min阿联酋9.783,60047 131000320880KSA34.772,150,00046 17943320849科威特4.20717,81852 31000460860阿曼4.975309,50147 111000580970巴林1.6478045 139473309025卡塔尔2.6411,52148 1310003009036与普通LSTM网络相比，双向LSTM网络提供了更有效的训练和验证，在训练期间具有短路径（Malki等人，2020年a）。卷积LSTM（CNN-LSTM）是标准LSTM网络的另一种扩展，其可以解释2D时空数据（Shastri等人，2020年）。Ketu and Mishra（2021）提出了一个基于CNN-LSTM网络的预测模型，以预测印度29个邦的COVID-19病例总数。Zain和Alturki（2021）证明，CNN-LSTM全球COVID-19患者预测模型优于其他预测模型，如CNN和LSTM基于网络的模型以及统计模型，如ARIMA。类似地，Dairi等人提出的CNN-LSTM（2021 b）在预测COVID-19病例方面表现出比SVM、门控RNN、CNN和限制玻尔兹曼机更好的性能。然而，Arora等人（2020）开发了一种双向LSTM预测模型，在准确性方面优于CNN-LSTM模型。此外，将LSTM模型与其他已经开发了机器学习技术。Vadyala等人提出了一种由K-means-LSTM组成的混合预测模型。（2020）预测美国路易斯安那州的COVID-19病例，比SEIR模型更准确。Ayoobi等人（2021）提出了一种双向CNN-LSTM预测模型，用于预测澳大利亚和伊朗的COVID-19病例和死亡人数。此外，Zheng et al.（2020）开发的混合预测模型将LSTM嵌入到改进的易感染流行病学模型中，以预测中国COVID-19病例的累积数量2.3. COVID-19预测和天气状况表1概述了包含天气特征的COVID-19预测模型。第2列表示研究区域，第3列显示用于预测的机器学习算法。第四栏列出了测试的天气特征，第五栏总结了研究结果。Abdulkareem等人（2021）使用主成分分析选择相关天气特征，以提高用于预测COVID-19病例的三种机器学习算法的预测准确性。DaSilva等人（2020）也证明了这一改进，他们将温度和降水数据纳入了机器学习预测算法。Karimuzzaman等人（2020）表明，温度和湿度对COVID-19 在几个国家的传播，除了意大利和斯里兰卡。与Karimuzzaman等人（2020）的工作类似，Malki等人（2020 b）证实了温度和湿度在预测法国和英国COVID-19死亡率中的作用。此外，RonaldDoni等人（2021）声称，将温度和湿度纳入其中提高了基于人工神经网络的预测模型的准确性。Pramanik等人（2020）的一项研究显示，温度、湿度、日照和风速等天气变量对俄罗斯的COVID-19病例和死亡率的引用研究使用不同机器学习与统计不包括LSTM模型的技术。用于预测COVID-19相关问题的LSTM模型要么是双向的，要么是双向的。多变量，并使用天气特征作为输入。例如，Khen-nou和Akhloufi（2021）考虑了每日温度、湿度和降水量数据来预测COVID-19在加拿大的进展，而Ara g a Ragio等人（2021）则考虑了每日温度、湿度和降水量数据来预测COVID-19在加拿大的进展。（2022）使用温度、湿度及空气质量指数数据预测巴西的COVID-19死亡人数。 AragZhao等人（2022）证明，与仅以COVID-19死亡作为单一输入的单变量LSTM模型相比，在多变量LSTM模型中包含天气数据导致更高的预测准确性。Batool和Tian（2021）和Bhimala等人（2020）指出，温度及湿度分别是预测巴基斯坦及印度COVID-19病例的重要Rashedand Hirata（2021）在为预测日本的COVID-19病例而开发的LSTM模型中合并了最高温度、Rashed and Hirata（2021）报告称，预测的COVID-19病例与实际报告的COVID-19病例一致，使用气象数据时，预测准确度略有提高。尽管上述研究人员就将天气数据纳入预测模型的重要性达成了共识，但一些研究人员在这方面提出了相反的意见。例如，Jesus等人（2020）证明，他们的LSTM模型在预测美国COVID-19病例、死亡和康复方面的预测准确性在包括天气数据时并没有提高。Iloanusi and Ross（2021）提出的多变量LSTM模型包括多个天气参数作为输入，用于预测36个国家的COVID-19病例死亡率。根据他们的研究，只有温度与预测准确性的增加有关，而且这种增加只在炎热的国家发现。Iloanusi和Ross（2021）的研究结果与之前的研究结果不一致，后者表明温度和湿度必须一起考虑。此外，温度已被证明可以提高寒冷国家的预测准确性，例如加拿大（Khennou和Akhloufi，2021年）和俄罗斯（Pramanik等人，2020），这些结果被Iloanusi和Ross（2021）拒绝。此外，Guptaet al. （2021）证明湿度不会提高预测准确性，这与Karimuzzaman等人（2020），Malki等人（2020 b）和Ronald Doni等人（2021）的说法相矛盾。因此，需要进一步研究以了解天气对COVID-19预测模型的影响。3. 研究背景本节提供了关于所研究国家的重要信息，特别是关于其天气状况的信息。此外，在这项研究中使用的数据进行了详细描述3.1. 研究区这项研究包括海湾合作委员会国家的数据。这些国家有相似的环境和天气条件，例如降雨量有限和夏季长且温度高。此外，海湾合作委员会国家也采取了类似的策略来限制 COVID-19 疫情的传播（Alandijany等人，2020年）。表2列出海湾合作委员会D.I. Abu-Abdoun和S. 希耶什智能系统与应用15（2022）2000935Fig. 1. 2020年4月至2021年9月海湾合作委员会国家的COVID-19病例。国家3.2. 数据集描述图2. 2020年4月至2021年9月海湾合作委员会国家的平均气温。摘自Weather Underground网站，该网站收集了全球29，000多个气象站的天气状况2。本研究中包括的天气特征是平均温度（摄氏度），平均湿度（%），平均露点海湾合作委员会国家每日报告的COVID-19病例来自世卫组织冠状病毒仪表板1，并与海湾合作委员会卫生部提供的当地数据集进行了国家图1描绘了我们研究中包括的海湾合作委员会国家COVID-19病例的时间轴（2020年4月至2021年9月）。阿联酋、沙特阿拉伯、科威特、巴林、卡塔尔和阿曼发现的COVID-19病例数最高，分别为4471、4919、1993、3273、2355和3910例。由于疫苗接种活动于二零二一年十月开始，我们于二零二一年九月前结束研究。预计疫苗接种将通过减少有症状和无症状感染并阻止病毒的人与人之间传播来减少COVID-19传播（Eyre et al.，2022年）。此外，正如Iloanusi和Ross（2021）所指出的，研究天气对COVID-19传播的影响需要不止一个季节。数据有关天气条件为的 GCC国家（100°F）和平均风速（mph）。图 2-5代表观察到的研究期间海湾合作委员会国家的天气状况4. 实验在本节中，我们首先描述LSTM网络的内部结构和组件。随后，我们解释了用于构建双变量和多变量LSTM模型的天气特征的选择。之后，我们展示了LSTM预测模型的配置。最后，我们给出了我们的实验结果，并将其与LSTM预测模型进行了比较。Python是一种高级通用编程语言，用于开发所有LSTM预测模型。我们使用了几个深度学习包，如NumPy，Pandas，TensorFlow，Keras，Matplotlib，Seaborn和scikit-learn，来构建我们的预测1 世卫组织COVID-19仪表板（https://covid19.who.int/）。2 Weather Underground（wunderground.com）D.I. Abu-Abdoun和S. 希耶什智能系统与应用15（2022）2000936图3. 2020年4月至2021年9月海湾合作委员会国家的平均湿度。图第四章2020年4月至2021年9月海湾合作委员会国家的平均露点。模型4.1. LSTM人工神经网络图5. 2020年4月至2021年9月海湾合作委员会国家的平均风速。术语时间相关性（Hochreiter和Schmidhuber，1997）。因此，在1997年，LSTM被提出来克服RNN的局限性。LSTM被认为是用于预测任务的最可行的预测工具之一（Arora等人，2020年）。在一个典型的RNN模型中，梯度在反向传播过程中消失，这阻止了神经网络进行长时间的学习。图6描绘了LSTM网络，而图7显示了LSTM单元的内部结构。LSTM单元由三个输入组成：D.I. Abu-Abdoun和S. 希耶什智能系统与应用15（2022）2000937-⊙（t）不不见图6。 LSTM结构的示例。图7. LSTM单元。先前单元状态Ct-1、先前隐藏状态Ht-1和当前输入向量xt双曲正切函数通常用作非线性激活C（t）=σ（ft<$Ct-1+it<$Ct）（5）函数σ在所有门之前，如图7所示。一个LSTM单元包括存储单元在几个时间步长上保留信息。门的状态使用方程计算。（1）-（3）。it=σ（wi xt+ui ht-1+bi）（1）f t= σ。wf xt+uf ht-1+bf）（2）ot=σ（wo xt+uo ht-1+bo）（3）基于h t1和x t，生成中间状态C t，如等式2所示。(4).随后，LSTM的存储器单元和隐藏状态被更新，如等式2所示。(5)（6）分别。这里，表示两个向量的逐点乘法运算在所有上述等式中，权重集合{wi，wf，wo，wt，wch，ui，uf，uo，bi，bf，bo，bc}通过优化LSTM预测模型来确定。Ct=tanh（xtwt+wchht-1+bc）（4）三个门：输入、遗忘和输出。这种安排抑制了D.I. Abu-Abdoun和S. 希耶什智能系统与应用15（2022）2000938H=otanh（C）（6）单变量预测模型只考虑一个数据流。相比之下，双变量和多变量LSTM预测网络考虑两个或更多个输入。在这项研究中，COVID-19病例被用作所有模型的输入数据。一个或多个天气特征也被包括在双变量和多变量LSTM预测模型中作为输入。4.2. 特征选择特征选择是指选择最相关的特征，以最小的误差完成分类任务（Pai和Ilango，2020）。我们选择皮尔逊相关系数ρ作为度量标准用于选择适当的输入特征。图图8 - 13显示了反映四个选定天气特征（即温度（摄氏度）、湿度（%）、露点（华氏度）和风速（英里/小时））之间的ρ值的热图，以及每个海湾合作委员会国家的COVID-19病例。深红色表示ρ=1的强正相关，而在热量中，深蓝色表示强负相关ρ=-1D.I. Abu-Abdoun和S. 希耶什智能系统与应用15（2022）2000939≥图8. 阿联酋热图相关性。见图9。 KSA热图相关性。地图表3列出了ρ 0的天气特征。2.我们使用这些特征来构建多变量LSTM模型。4.3. LSTM模型我们为每个海湾合作委员会国家开发了以下七个LSTM预测模型来预测COVID-19病例：1. 以COVID-19病例为输入的单变量LSTM模型。2. 四个二元LSTM预测模型。每个双变量LSTM模型采用一个天气特征（即，温度、湿度、露点和风速）作为输入以及COVID-19病例。见图10。巴林热图相关性。图11. 卡塔尔热图相关性。3. 两个多变量LSTM预测模型，使用表3中列出的天气特征作为COVID-19病例的输入由于数据缩放可以提高预测模型的性能，因此使用scikit-learn库中的最小-最大标量算法将天气特征和COVID-19病例数据缩放到0到1之间的值。此外，每个预测模型中的COVID-19和天气状况数据集被分为80%用于训练，20%用于测试。在LSTM模型的训练过程中，Adam优化器用于优化均方误差（MSE）损失。LSTM预测模型的神经网络被训练了40个时期，批量大小为1。所有LSTM模型都是使用Keras调优配置的D.I. Abu-Abdoun和S. 希耶什智能系统与应用15（2022）20009310表4模型配置上的Keras调谐结果。国家/地区模型类型超参数，带keras调优输入节点隐藏层隐藏节点MSE阿联酋多元160 2 300，10 0.0022高相关因素280 1 0 0.0021单变量20 2 220，220 0.0023双变量风速双变量露点双变量湿度双变量温度300 2 280，10 0.002130 2 80，10 0.0024140 2 20，60 0.0024270 2 20，10 0.0026KSA多变量30 1 40，10 0.0011高相关因素210 3 90，10，10 0.0013单变量100 3 170，10，10 0.0010图12. 科威特热图相关性。双变量风速双变量露点双变量湿度双变量温度50 3 220，10，10 0.001320 2 80，10 0.0011210 2 60，190 0.0012290 2 30，300 0.0011科威特多元70 2 270，80 0.0044高相关因素70 2 270，80 0.0044单变量200 3 190，290，240 0.0048双变量风速双变量露点双变量湿度双变量温度50 2 280，210 0.004470 3 260，50，160 0.0044280 1 170 0.004490 2 90，200 0.0045巴林多变量160 3 60，10，10 0.0015高相关因素120 2 210，50 0.0011单变量90 2 20，10 0.0014双变量风速双变量露点双变量湿度双变量温度130 2 60，20 0.001370 3 240，10，10 0.001720 2 60，240 0.0013150 3 10，80，130 0.0014卡塔尔多变量210 1 180 0.0016高相关因素210 2 50，120 0.0017单变量160 2 170，160 0.0018图13. 阿曼热图相关性。双变量风速双变量露点双变量湿度双变量温度30 1 70 0.0018270 2 260，40 0.0021220 2 270，230 0.001820 2 70，270 0.0017温度表3阿曼多变量1701200.0069为多变量LSTM模型选择的天气因素。高相关2002110,1900.0071国家高相关的天气因素因素单变量220240,100.0077阿联酋温度、露点、风速双变量1601700.0071KSA温度，风速风速巴林湿度双变量2102170,700.0079科威特温度，露点，风速，湿度露点卡塔尔露点，湿度双变量26012800.0080阿曼温度湿度二元11012200.0073D.I. Abu-Abdoun和S. 希耶什智能系统与应用15（2022）20009310表5LSTM模型精度评估。0.92图十四岁海湾合作委员会国家模型的R2boX图.算法，以确保所有预测模型达到最高可能的预测精度。LSTM模型架构由三层组成：输入层、隐藏层和输出层。Keras调优算法选择层的超参数，即隐藏层的数量，每层中的节点数量和每层中的激活函数。在Keras调优算法中选择每个超参数的范围，并通过优化精度度量来选择最佳参数值。Keras调谐算法的目标函数被设置为最小MSE。每个GCC国家的LSTM模型的配置，由Keras调优算法，如表4所示。表4的第1列表示国家名称，第2列列出模型类型，第3列和第4列分别表示每个LSTM模型的输入层和隐藏层的数量。此外，隐藏节点的数量在列5中指示。值得注意的是，对于所有模型，选择一个输出单位来显示COVID-19病例的预期数量。第6列列出了每个LSTM模型在通过Keras调优算法优化后获得的MSE值。所有模型的门都选择了sigmoid或tanh激活函数。国家LSTM模型评估指标国家LSTM模型评估指标RMSER2RMSER27* 迪拜多变量94.7 0.95巴林多变量184.760.85高相关因素86.28 0.97高相关因素128.810.93单变量148.1 0.98单变量110.870.94双变量风速137.79 0.96双变量风速114.560.94二元露点117.34 0.97二元露点182.430.85双变量湿度双变量温度111.89 0.97131.02 0.96双变量湿度双变量温度128.81134.330.93KSA多变量178.5 0.97卡塔尔多变量87.460.93高相关因素186.38 0.97高相关因素77.460.95单变量173.73 0.97单变量68.230.95双变量风速184.05 0.97双变量风速80.480.94二元露点197.07 0.97二元露点75.040.95双变量湿度176.47 0.97双变量湿度74.540.95双变量温度165.13 0.98双变量温度930.92科威特多变量129.43 0.90阿曼多变量268.70.79高相关因素129.43 0.90高相关因素273.970.78单变量122.05 0.79单变量275.410.70双变量风速141.94 0.87双变量风速280.260.77二元露点133.57 0.86二元露点271.730.78双变量湿度150.91 0.85双变量湿度255.240.80双变量温度137.17 0.85双变量温度273.970.78D.I. Abu-Abdoun和S. 希耶什智能系统与应用15（2022）20009311i= 1∑-=表6图十五岁海湾合作委员会国家模型的RMSEboX图。单变量模型，考虑RMSE和R2值，单变量LSTM模型与双变量、多变量LSTM模型之间的R2比较。国家R2值RMSE值Uni-最好的双或多-Uni-最好的双或多-变量变量变量变量阿联酋0.980.97148.186.28KSA0.970.98173.73165.13巴林0.940.94110.87128.81卡塔尔0.950.9568.2374.54科威特0.800.90122.05129.43阿曼0.700.79275.41255.244.4. 模型评估新冠肺炎疫情的实际值和预测值之间的比较进行了19个案例，以评估所提出的LSTM预测模型的预测准确性，如表5所示。我们用公式计算了均方根误差（RMSE）和决定系数（R2）.(7)（8）分别。因此，我们使用图1和图2中描绘的BOX图以图形方式总结了表5中的结果。R2和RMSE分别为14和15。方框图显示了每个国家R2和RMSE值分布的几个描述性测量值√̅(̅1 )∑n业绩计量。表6第1栏显示的是国名，第2和第3栏以及第4和第5栏分别比较了R2和RMSE的最佳结果。我们使用配对t检验来确定单变量和最佳双变量或多变量模型之间是否存在显著差异。对于R2和RMSE，单侧检验的P当我们比较具有相似天气条件的国家时，我们期望提供RQ 1的单一答案。然而，我们的预期不正确，因为不同国家可能影响COVID-19病例的重要天气特征不同。这

下载后可阅读完整内容，剩余1页未读，立即下载