混合机器学习预测印度西部疟疾病例的气象变量分析

51 浏览量更新于2023-12-10 收藏 2.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用17（2023）200164利用混合机器学习和数据融合，利用印度西部的气象变量准确绘制疟疾病例图Abhilash Singha，Mr. Abhilash Singha，Manish Mehraa，Amit Kumara，M Niranjannaika，Dev Priyab，Kumar Gaurava，a印度博帕尔科学教育和研究所地球和环境科学系河流地貌和遥感实验室印度孟买b印度新德里技术信息预测和评估理事会专利促进中心1A R T I C L E I N F O A B S T R A C T关键词：机器学习数据融合疾病预测气象变量智能系统我们提出了一种混合机器学习算法（即，P2CA-PSO-ANN）对印度西部拉贾斯坦邦三个地区（Barmer、Bikaner和Jodhpur）的疟疾暴发进行建模。我们使用了不同的气象变量（即，相对湿度、温度和降雨量）作为输入特征来预测疟疾。我们还考虑了通过线性数据融合这些变量的综合影响。然后，利用概率主成分分析（P2CA）从特征集中提取不相关的信息. 我们通过生物启发优化算法（粒子群优化）迭代优化其超参数，训练了完全连接的前馈人工神经网络（ANN）。我们使用2009 - 2012年的月度气象变量训练和评估该算法的性能。这准确地用相关系数（R= 0.99）和均方根误差（RMSE）= 1.76）。最后，我们比较了我们的模型与不同的基准算法（广义回归神经网络（GRNN），高斯过程回归（GPR），支持向量回归（SVR），随机森林和径向基神经网络（RBNN））的准确性。我们观察到混合机器学习模型的性能本研究可作为一个预警智能系统，仅从气象数据预测疟疾的爆发。1. 介绍气候变量与病媒传播疾病（如疟疾、登革热、莱姆病和恙虫病）的传播（或扩散）之间的联系这些疾病要么是季节性的，要么是由于干旱、干旱等极端事件而爆发的（Patz，2002年）。由于全球变暖而导致的气候变量的短期变化加剧了同时研究气候变化和疾病传播的需求（RocklövDubrow，2020）。在各种病媒传播疾病中，疟疾在全球造成了严重的健康负担（Caminade et al.，2014年）。这是一种由蚊子传播的疾病，由不同种类的疟原虫原生动物寄生虫引起，即恶性疟原虫、间日疟原虫、三日疟原虫、诺氏疟原虫，卵圆假单胞菌（P.ovale wallikeri）和卵圆假单胞菌（P.ovale curtisi）。恶性疟原虫和间日疟原虫覆盖物世界上大部分病例（约95%）（Garrido-Cardenas，*通讯作者。González-Cerón等人，2019，Garrido-Cardenas，Cebrián-Carmona，et al.，2019年）。它是低收入国家十大死亡原因之一。根据世界卫生组织（WHO）的数据，从2000年到2019年，报告了约15亿例疟疾病例和760万例疟疾死亡。2019年，约87个国家约有2.29亿例疟疾病例（世卫组织，2020年）。在全球范围内，只有29个国家占世界疟疾病例总数的近95%。其中，尼日利亚的捐款比例最高（27%），其次是刚果民主共和国（12%）、乌干达（15%）、莫桑比克（14%）和尼日尔（13%）。东南亚地区占全球疟疾病例的3%，其中仅印度就占约60%，其次是印度尼西亚（30%）和缅甸（10%）。印度报告疟疾病例从2000年的2000万例减少到2019年的近560万例（世卫组织，2020年）。尽管如此，疟疾仍然是印度的一个重大医疗挑战。电子邮件地址：sabhilash@iiserb.ac.in，abhilash. gmail.com（A. Singh），manish16@iiserb.ac.in（M. Mehra），amit17@iiserb.ac.in（A. Kumar），niranjannaik@iiserb.ac.in（M Niranjannaik），devpri6@gmail.com（D.Priya），kgaurav@iiserb.ac.in（K. Gaurav）。1现位于印度哈里亚纳邦古鲁格拉姆的CIPhttps://doi.org/10.1016/j.iswa.2022.200164接收日期：2022年2月24日;接收日期：2022年6月23日;接受日期：2022年12月1日2022年12月5日在线发布2667-3053/© 2022作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsA.辛格，M。梅赫拉A. Kumar等人智能系统与应用17（2023）2001642Fig. 1. 对关键词“{疟疾}和{气候}"进行基于共关键词爆发的文献计量学分析1991年至2022年（截至2022年2月10日）在WoS数据库中发表的研究出版物共计2117篇。在印度，疟疾在东北部各邦更为普遍，即、奥里萨邦、恰蒂斯加尔邦和恰尔肯德邦。在20世纪70年代后期的根除尝试之后，在古吉拉特邦和拉贾斯坦邦的干旱地区已经报道了疟疾（Tyagi等人，1995，AkhtarMcMichael，1996）。在拉贾斯坦邦，主要的流行病发生在沙漠地区，如Barmer、Bikaner、Jaisalmer、Jodhpur、Pali和Sri Ganganagar。疟疾在印度的持续存在是因为其巨大的地理和气候变异性，这为许多寄生虫提供了合适的生态条件（Sarkar等人，2019年）。气候因素增强了蚊子的繁殖场所（Haque等人，2010年）。蚊子的形态过程（例如，生长）高度依赖于环境温度、湿度和停滞水体。降雨作为蚊子滋生地增加的一个关键因素受到了很大关注。繁殖区域可能受到该地区干旱或严重的干旱的限制（Caminade等人，2019年，Kelly-Hope等人，2009年，Alonso等人，2011年）。印度西部的半干旱和干旱地区被认为是不可预测的疟疾区，其低发病率和高发病率主要受降雨影响（Mathur等人，1992年）。因此，疟疾的爆发造成了由于气候条件可能导致疾病传播并最终使情况复杂化（Jetten等人，1996年，Hulme等人，1996，Sutherst，1998）。由于缺乏医疗设施，特别是在在大流行中，疟疾的症状要严重得多（Di Gennaro等人，2020年）。预防或减少疟疾的危险因素是非常困难的，特别是在低收入国家。该技术可以提供替代解决方案，允许早期预警机制来监测疾病的传播，并推进治疗设施的管理，以确保更及时的医疗服务，从而挽救生命。任何预测模型的可用性将不仅有助于医疗保健服务，而且有助于避免或减少疾病的大规模传播（Modu等人，2017年）。本研究提出一种混合式机器学习演算法，利用气象变数预测疟疾病例。我们选择温度，降雨量和相对湿度作为潜在的输入功能。为了研究这些气象变量的组合效应，我们使用两个特征的线性数据融合来生成一些额外的特征。最后，我们训练和评估机器学习模型的性能，以准确预测疟疾病例。据我们所知，尚未进行此类研究以使用混合机器学习方法评估相对湿度与温度、温度与降雨量、相对湿度与降雨量以及单个气候变量对疟疾病例的组合2. 相关工作已经使用气象变量建立了机器学习模型，以准确预测疟疾病例。图1显示了使用关键词疟疾和气候的文献计量分析。出版物的数量在过去二十年中急剧增加，从2001年的21种出版物增加到2021年的152种。总的来说，我们在Web of Science（WoS）数据库中发现了1991年至2022年的2117篇研究出版物。研究人员传统上使用线性回归和时间序列方法（Srimath-Tirumula-Peddinti 等人， 2015 ， Jones 等人， 2007 年，Kumar等人，2020年）。Modu等人（2017）将最高和最低温度、降水、相对湿度、太阳辐射和风速作为预测疟疾暴发的潜在气候变量。他们报告说，温度和相对湿度与疟疾病例数呈正相关（皮尔逊互相关）。Modu等人（2017年）比较和评估了七种基于回归的机器学习算法的性能;线性回归，逻辑回归，决策树，支持向量机，优化支持A.辛格，M。梅赫拉A. Kumar等人智能系统与应用17（2023）2001643图二、印度拉贾斯坦邦的疟疾易发区（巴默、比卡内尔和焦特布尔）。右边的地图显示了2009年至2017年的累计疟疾病例向量机、朴素贝叶斯、K-最近邻和k-均值。他们观察到，优化的支持向量机通过10倍交叉验证优于所有其他机器学习算法。最近，Kim等人（2019）提出了一种基于天气的疟疾预测模型，该模型使用每周时间序列温度和降水数据。他们报告说，模型预测精度（R >0.8）在短期（提前1或2周）更高。Thakur和Dharavath（2019）使用气候变量和临床数据来预测疟疾病例。他们使用降雨量、相对湿度、温度和植被指数作为环境变量，并训练了一个人工神经网络模型，以准确绘制疟疾病例。他们报告的误差从18%到117%不等最近，Nkiruka等人（2021）提出了一种疟疾发病率分类模型，并将其结果与不同的机器学习模型进行了比较。他们考虑了三个气候变量，如降水，温度和表面辐射，以绘制疟疾病例的数量。在三个气候变量中，气温与疟疾发病率有较强的线性关系。他们使用k均值学习来清理和去除离群值，并使用XG-Boot集成学习方法进行分类。他们报告说，气候变量与疟疾病例之间的关联因地理位置而异。以上讨论的所有模式都只考虑了气候变量的个体效应本研究旨在通过使用混合机器学习算法从气候变量中提取最大信息来加强先前研究的预测3. 研究区我们选择了印度西北部拉贾斯坦邦省的比卡内尔、巴默和焦特布尔三个地区来预测疟疾的爆发（图2）。这些地区是根据疟疾病例的高数量和数据的可用性选择的。Tyagi等人（1995年）报告说，在建造了三个主要运河系统之后，Gang运河、Bhakra Sirhind支线运河和IndiraGandhi运河为疟疾的滋生提供了有利的生态环境。研究区的疟疾暴发通常发生在印度图3显示了所有三个地区疟疾爆发的周期性行为。疾病在六月季候风开始后约一个月开始蔓延。它在8月和9月达到高峰，然后开始下降。年平均最低和最高气温研究区域的温度在23℃到40℃之间变化。西部和东部的年平均降雨量在313毫米至675毫米之间拉贾斯坦邦，分别年平均相对湿度在45%至50%之间。4. 材料和方法4.1. 数据我们从新德里国家病媒传播疾病控制计划（NVBDCP）（Lingala，2017）获得了2009年1月至2012年12月期间三个地区（Barmer、Bikaner、Jodhpur）的月间日疟和恶性疟病例。从印度气象部门（IMD）（https://mausam.imd.gov.in/）下载相应的每月气象数据;温度、降雨量和相对湿度（在8：30 IST和5：30 IST）4.2. 特征处理任何机器学习模型的性能都取决于特征预处理（Hall等人，1971年）。非常希望采用必要的预处理步骤（特别是对于数值特征）来开发高效且鲁棒的机器学习模型（Alshdaifat等人，2021年）。4.2.1. 离群值技术我们使用中位绝对偏差（MAD）方法来识别和删除数据中存在的离群值（图4）。我们估计了与中位数的绝对偏差的中位数，并最终通过将其乘以经验推导的常数来计算MAD（Leys等人，2013年）。��=��0��（|��−��（��）|（1）夏季季风期（6月至9月）（Lingala等人，2020年，库马尔||例如，2022，Parihar等人，2022年）。在季风期间，降雨、温度、相对湿度和积水为蚊子中的寄生虫生长提供了有利条件（Arab等人，2014年）。图3其中，是由观测和组成是一个经验常数，其值来自于显示了2019 - 2014年比卡内尔、巴默和焦特布尔疟疾爆发的时间序列=−1（2（��3scin2））（二）A.辛格，M。梅赫拉A. Kumar等人智能系统与应用17（2023）2001644（）（）图三. 印度西部拉贾斯坦邦三个地区（比卡内尔、巴默和焦特布尔）疟疾病例的时间序列（2009年至2012年）。阴影区域灰色代表季候风期（即，JJAS; 6月-7月-8月-9月）。图四、详细的工作流程如下：输入特征选择、机器学习模型和结果分析。其中，逆互补误差函数表示逆互补误差函数。最后，使用以下标准识别��−3⋅��<��<�� +3��（3）任何超出此范围的值均标记为离群值。A.辛格，M。梅赫拉A. Kumar等人智能系统与应用17（2023）20016454.2.2. 特征生成和数据融合最初，我们选择三个气象变量;温度，降雨量和相对湿度作为训练机器学习模型的潜在特征。这些功能将只评估个别措施的效果为了研究组合测量的效果，我们通过线性数据融合技术创建了三个附加特征，例如A.辛格，M。梅赫拉A. Kumar等人智能系统与应用17（2023）2001646（）下一页∫∑1相对湿度与温度、温度与降雨量、相对湿度与降雨量（图1）。4）。4.2.3. 特征重要性和相关性式中，是观测的总数，=（，）��表示��观测。通过根据下式分解等式（10）的平均效应来计算ICE：��()= (,)(11)机器学习模型的好坏取决于相关性任何特征的相关性都可以通过估计特征重要性得分来评估更高的恐惧-最后，通过以下方式去除水平效应：真正的重要性更相关的是特征。我们用回归分析（）=（��，）−（��（）��，）（12）��你好，你好，用于估计特征重要性的树集成技术（Singh等人，2022 a，2022 b）。我们使用最小二乘提升（LSBoost）算法来训练回归集合。在这样做的过程中，我们通过提升一百棵回归树来创建回归集成。这一步是基于回归树是弱学习者（具有单位学习率）的假设。此外，我们通过对由于每个特征上的分裂而发生的节点风险的所有变化进行求和来估计树中每个特征的特征重要性。最后的估计是通过将变化与分支节点的数量相乘来获得��的。父节点的节点风险变化是通过从父节点风险（风险1）中减去两个子节点的总风险（风险1+风险��2）来计算的，给出如下：这样做是为了更好地显示累积的累积效应。��一般而言，ICE用于分析任何单个观察结果中存在的任何异质性，这些异质性已被PDP的平均效应所掩盖。4.3. 人工神经网络模型人工神经网络是基于人类大脑中生物神经元的概念和功能。人工神经网络的基本单元是人工神经元，它是一种模拟生物神经元行为的数学模型。信息被传递到人工神经元，并使用数学函数进行处理以生成最终输出Δ =−（��1+��2）��ℎ单个节点的风险（风险）根据以下公式计算：（四）（Asteris等人，2017年）。为了精确地模拟生物神经元的随机行为，在将信息传递给人工神经元之前，将其乘以权重值。几个人工神经元被组合在一起形成ANN。一般来说，为了建立一个ANN模型，我们需要��=��⋅��(5)其中表示节点概率，表示节点的均方误差。除了特征重要性之外，我们还估计了特征关联矩阵以识别任何相关特征。任何高度相关的特征的存在使得机器学习模型高度不稳定且敏感（ToloS.&Lengauer，2011，Singh，Gaurav，etal. ，2021年）。4.2.4. 特征灵敏度特征重要性图告诉我们每个特征的相对重要性。为了确定这些特征对机器学习模型是否具有负面或正面影响，我们使用部分相关图（PDP）对所有特征进行了敏感性分析（Friedman，2001，Singh，Nagar等人，2021）和个体条件EX pectation（ICE）曲线（Goldstein等人，2015，Singh等人，2020年）。PDP评估预测和的部分依赖性（即，疟疾病例）的影响而忽略所有其他特征。��设是整体的一个单例，表示为={ ��1}��特征集，��由��={1，2，n，��}表示。考虑 ��是特征集中的互补集�� 。The predictand response响应，（（预测量对预测值的部分依赖性是通过预测量和响应值对预测值的期望来计算的。()=[ ( ,)](7)定义三件事：（i）网络的架构，（ii）描述模型的函数，以及（iii）训练算法。我们在后面的小节中讨论了这些问题。4.3.1. 前馈人工神经网络我们提出了一个6-20-1全连接FF-ANN的架构（图5）。在这种类型的结构中，没有反馈（即，循环）。信息仅在一个方向上传播，即，从输入到输出。存在于相同层中的神经元彼此不连接，但它们与存在于前一层和即将到来的层中的神经元连接。用于预测疟疾病例的全连接前馈ANN架构由具有20个神经元的单个隐藏5）。4.3.2. 各层激活函数每层激活函数的选择强烈影响模型输出（Karlik Olgac，2011）。隐层一般采用非线性传递函数。在这项研究中，我们使用了双曲正切S形传递函数（Vogl等人，1988）在隐藏和输出层的输出处，如图5所示。在数学上，它表示为：（1+��−2−1该函数类似于双曲正切函数，只是计算时间复杂度不同。f（n）的执行时间比双曲正切函数快，数值输出的变化非常小。这是前馈神经网络的一个折衷方案，其中速度是主要的兴趣，而不是精确的形状。=（，��）（）（8）��式中，（）表示的边际概率，由下式给出��(��)≈�� (��,�� )⋅�� (9)��传递函数（Dorofki等人，2012年）。我们在输入层的输出处使用线性（或恒等）激活函数。4.3.3. 训练算法各种训练算法，如Levenberg-Marquadt反向传播，缩放共轭梯度反向传播和贝叶斯正则化，最终的部分依赖估计（即，平均边际效应）由下式给出：电子邮件��：info@martina.com��存在优化多变量函数的极化反向传播（Corte-Valiente等人，2017年）。然而，这些都不能保证全局最优解。为了绘制疟疾病例数，我们发现Levenberg-Marquadt反向传播技术提供了=1与其他算法相比，更有希望的结果它是一个-A.辛格，M。梅赫拉A. Kumar等人智能系统与应用17（2023）2001647图五、基于6-20-1反向传播的全连接FF-ANN的体系结构。它由六个输入，二十个神经元在隐藏层和一个输出。迭代算法，其计算多变量函数的最优最小值以更新权重和偏置值（等式（14））。��+1=�� − [��+��]−1�� (14)其中，λ表示雅可比矩阵，λ是标量系数。它包含网络误差相对于权重和偏差的一阶导数��表示网络错误的向量最后，我们将数据以60：40的比例随机分为两部分，分别用于训练和测试FF-ANN 6-20-1架构（图10）。4）。4.4. 混合模型+1=表1优化权值和偏差的粒子群优化算法的仿真参数。参数值Swarm size 6最大迭代次数（千次）50122012年4月4日-2012年1月1日适应度函数MSE联系我们+1（十六）提出了一种基于概率主成分分析（P2CA）、粒子群算法（PSO）、其中，粒子最佳解是粒子（或群）最佳解，全局最佳解是全局最佳解，认知成分是认知成分，社交成分是社交成分，PSO和ANN，如P2CA-PSO-ANN来预测1和 2是0和1之间的随机数，是当前使用气象变量的疟疾病例在随后的子节中，粒子位置，是当前粒子的速度，我们已经讨论了完整的耦合过程（图1）。（六）。4.4.1. 概率主成分分析我们应用P2CA作为特征预处理步骤，其目的是从输入特征中提取最不相关的信息第n次迭代，d+1是第n次位置迭代。如示于图 6b， ��每个粒子将位置和速度信息从其自身的最佳解（ ��）迭代到全局最佳解（ ��）。 ��是目标理论最优值。在受到各种各样的批评之后，因子s（p_（0.05）），速度变化��真集P2CA有效地估计主轴，即使一些或从到+1，位置从到最大值+1。是值得所有数据向量都由单个或多个缺失值组成，注意，如果将粒子存储器和swarmin��期望最大化（EM）算法（Tipping Bishop，1999）。莱尔河分别为和。算法会保持我们通过考虑P2CA的前三个主成分（PC）来重建数据，它们包含95%的方差。4.4.2. 粒子群优化粒子群优化算法是基于群智能的，由Kennedy和Eberhart（1995）于1995年提出。它具有较少的参数和整个优化过程是由迭代公式，减少了计算负担。它在优化各种理论和实际问题方面具有非常高的效率（Zhang et al.，2018，Singh，Sharma，et al.，2021年）。通常，它由用于迭代地更新位置和速度的两个方程（方程（15）和（16））组成。重复迭代并更新位置和速度，直到它更接近理论最优值（图6c）。4.4.3. P2CA-PSO-ANN为了将P2CA和PSO与ANN耦合，我们考虑了6-6-1-1ANN结构，如图所示早上6第一个隐藏层由六个神经元组成，第二个隐藏层由单个神经元组成。这两个层之后都是正切S形传递函数（即，tansig）。输入和输出层使用线性激活函数（即，purelin）。将P2CA重构数据作为模型输入，利用粒子群优化算法对模型的权值和偏置进行迭代优化的+1=+10000000（10000000��）��–– �� )PSO的模拟参数在表1中给出。类似于FF-A.辛格，M。梅赫拉A. Kumar等人智能系统与应用17（2023）2001648A.辛格，M。梅赫拉A. Kumar等人智能系统与应用17（2023）2001649图第六章（a）混合模式示意图。（b）PSO中的位置和速度更新（c）优化人工神经网络权重和偏差的流程图人工神经网络，我们随机分为两部分的数据在60：40的比例进行训练，并测试所提出的混合算法，分别。5. 结果和讨论5.1. 特征重要性、相关性和敏感性我们绘制了每个特征的相对特征重要性得分（图7a）。我们发现相对湿度是所有特征中重要性得分最高的单一最重要特征重要性分数的值越高，该特征在疟疾病例预测中的相关性越大其后是相对湿度和温度的组合测量的相对重要性分数（即， RH+温度）。相对湿度和降雨量的测量下降（即，RH+降雨）的重要性得分最低。重要的是要强调温度的相对重要性小于包括温度的组合特征（即， RH+ Temperature 和Temperature+ Rainfall）。这表明当温度变量与其他气象变量结合时，它变得更相关。此外，我们绘制了特征关联矩阵X（图1）。7b）。我们没有观察到高度相关的特征，这表明模型对不稳定性不太敏感。我们在图8中绘制了部分依赖性图（PDP）（以红线显示）和个体条件EX pectation（ICE）曲线。我们没有观察到特征对疟疾病例的明显影响（或趋势）。总体而言，我们发现RH+温度和温度+降雨量的波动的积极影响和RH和RH+降雨量的波动的负面影响。我们只观察到温度的微小变化。A.辛格，M。梅赫拉A. Kumar等人智能系统与应用17（2023）20016410图第七章（a）条形图显示了每个特征的相对重要性得分，（b）显示了特征关联矩阵。图八、使用PDP（红线）和ICE曲线（灰线）进行特征敏感性分析。5.2. FF-ANN模型一旦我们使用60%的数据（N= 53）训练了FF-ANN模型我们绘制了估计值和观察值之间的线性回归曲线（图9a）。为了评估模型的性能，我们使用R，RMSE，偏差作为性能指标。性能指标的详细信息已在Ap-pendiXA中解释。该模型在R = 1，RMSE =0和零偏置。然而，仅在训练数据上测试模型性能是不够的，并且会导致偏差。为了评估其生成能力，我们在看不见的数据上测试了模型性能。我们使用剩余40%的数据（N= 35）进行测试。我们发现，训练后的模型在测试数据集上的表现不佳，R=0.72，RMSE= 62.23，偏差为-19.28，具有中等散射（图9b）。我们发现，很少有点位于95%置信区间之外，导致高估或低估（用红圈标记）。为了了解误差及其对FF-ANN模型性能的影响，我们通过丢弃绝对部分来计算L1范数的误差，并绘制了10个箱大小的误差直方图（图10）。红色和绿色的阴影对应于与训练和测试阶段相关的错误。橙色显示的垂直线表示零误差线。总误差范围为-113.4（最左侧的箱）至137.7（最右侧的箱）。负号表示高估，正号表示低估。训练误差本质上更集中，位于零误差线附近，其次是测试误差。总体误差遵循高斯分布，A.辛格，M。梅赫拉A. Kumar等人智能系统与应用17（2023）20016411图第九章 FF-ANN预测疟疾对观察到的病例绘制。（a）用于训练数据集，以及（b）用于测试数据集。RMSE=0.01，偏倚=-1.31）。然而，为了进行公平的评估，我们评估了训练模型在剩余40%数据（N = 35）上的性能。我们发现，该模型在看不见的数据上表现同样出色，R=0.99，RMSE=1.76，偏倚=-1.75。(See图12.）我们绘制直方图，以了解在训练和测试期间使用所提出的P2CA-PSO-ANN模型我们计算通过丢弃绝对部分从L1范数中去除误差，并使用10个箱大小绘制训练（红色阴影）和测试（绿色阴影）误差的堆叠直方图（图13）。我们发现，误差范围从0.53（最左边的bin）到10.07（最右边的bin）。总误差服从右偏分布。零误差线位于分布的峰值附近。因此，在大多数情况下，预测输出接近观察值。我们进行了残差分析的建议P2CA − PSO −ANN模型（图14）。与FF-ANN的情况不同，我们发现P2 CA-PSO-ANN成功地捕获了响应变量的确定性部分。我们观察到，大多数残差位于见图10。误差直方图分析的FF-ANN与10箱大小。零误差线（橙色）左侧和右侧的区域分别表示高估和低估区域。零误差线处的峰值。这表明在大多数情况下，输出值接近观察值，偶尔会低估和高估。我们进行了残差分析，以估计FF-ANN方法的适当性（图11）。对于良好拟合的模型，残差必须随机分散，而不遵循任何确定性模式。换句话说，残差必须与随机误差一致在图11中，我们观察到尽管残差对于两个相位都遵循随机模式（即，训练和测试），但是大量的残差位于测试RMSE线之外。因此，模型未能在测试数据集上达到与训练阶段相当的准确度，这表明存在轻微过拟合的情况。5.3. P2CA-PSO-ANN的性能我们使用60%的数据（N= 53）训练了P2CA-PSO-ANN模型，并评估了所提出的方法的训练精度，将R，RMSE和偏差作为性能指标。我们发现该模型在训练数据上表现得很好（R= 0.99，测试RMSE线，不遵循任何特定模式（即，在训练和测试阶段都是随机的），表明该模型是一个很好的拟合。5.4. 与基准算法的为了对机器学习模型进行公平的评估，我们将P2 CA-PSO-ANN和FF-ANN的结果与五种基准算法的结果进行了比较; GRNN，GPR，SVR，随机森林和RBNN。我们观察到，所有算法在同一数据集上的表现都不同P2 CA-PSO-ANN在精度方面优于所有其他算法（表2）。FF-ANN在预测中排名第二疟疾病例的数量我们发现存在负偏差（即，在大多数的基准算法中。这表明，所有这些算法都低估了一些值，但RBNN除外，RBNN显著高估了疟疾病例，具有正偏倚（58.62）。虽然所提出的方法给出了有前途的结果，它有一些限制的计算复杂性。P2CA-PSO-ANN的使用增加了亲的计算复杂度提出的方法。为了更好地进行比较，我们绘制了所有算法的计算时间复杂度图（图15）。我们观察到，P2CA-PSO-ANN表现出更高的时间计算成本，A.辛格，M。梅赫拉A. Kumar等人智能系统与应用17（2023）20016410图十一岁观察到的疟疾病例与FF-ANN预测的疟疾病例的时间序列以及相应的残差图。残差中的虚线显示了测试RMSE。图12个。 P2CA-PSO-ANN预测疟疾与观察到的病例的关系。（a）用于训练数据集，以及（b）用于测试数据集。表2与基准算法（GRNN，GPR，SVR，随机森林和RBNN）的结果比较。性能度量方法P2CA-PSO-ANN FF-ANNGRNN GPR SVR随机森林RBNN2019 - 04- 29 00：00：00RMSE1.76 62.23 93 93 92 89.57 92.86偏差-1.75-19.28-18.48-55.11-31.6-8.97 58.62其次是FF-ANN，RBNN，随机森林，GRNN和SVR，而GPR表现出最低的时间复杂度。这主要是因为模型优化大量内部参数所花费的计算时间（即，权重和偏差）的情况下，P2CA-PSO-ANN和FF-ANN。相比之下，具有非常少的自由参数的那些算法表现出更少的计算时间，例如GPR、SVR、GRNN和随机森林。5.5. 控制气象变量我们绘制了气象变量（降雨量、温度、相对湿度）的时间序列，以评估它们对疟疾爆发的控制（图16）。季风期间的降雨导致病媒蚊子数量增加。这导致疟疾病例急剧上升（图3）。在此期间，相对湿度相对较高。这个输入变量也成为映射A.辛格，M。梅赫拉A. Kumar等人智能系统与应用17（2023）20016411图14个。观察到的时间序列与P2CA-PSO-ANN预测的疟疾病例和相应的残差图。残差中的虚线显示了测试RMSE。图十三. 误差直方图分析P2CA-PSO-ANN与10箱大小.零误差线（橙色）左侧和右侧的区域分别表示重新估计和低估区域疟疾病例。此外，研究区的温度在夏季相对较高，并在季风爆发时大幅下降再加上降雨、高相对湿度、最佳温度为蚊子提供了有利条件。我们注意到，温度和相对湿度的组合效应是疟疾病例制图的第二个最重要的相关特征。这表明温度和相对湿度是重要的输入预测因子，为疟疾爆发提供了有利的初始条件（Arab et al.，2014年）。6. 结论我们使用气象变量从混合模型（即， P2 CA-PSO-ANN）在印度西部拉贾斯坦邦的三个地区。根据本研究的结果，我们可以得出以下结论：图15个。 P2CA-PSO-ANN与基准机器学习算法的时间复杂度。• 将概率主成分分析和粒子群优化与人工神经网络相结合，显著提高了性能。• 混合算法准确地预测了疟疾的爆发。该算法对特征集中的缺失值具有抵抗力，提高了模型的鲁棒性。• 气象变量的线性数据融合提高了机器学习模型的预测能力。相对湿度和温度的组合效应具有较高的预测能力。相对湿度已成为预测疟疾爆发的最这项研究的结果可以在地区/州一级实施，以便根据气候预测对一个地区的疟疾暴发进行早期预测。这将有助于有关卫生部门采取预防措施，防止疾病爆发。本研究中开发的我们的模型的鲁棒性和预测可治愈性需要用长时间序列的输入数据进行评估。此外，这种方法可以推广到预测任何其他类型的媒介传播疾病。在这项研究中，我们只使用气象变量来预测疟疾的爆发。另一个重要的参数，A.辛格，M。梅赫拉A. Kumar等人智能系统与应用17（2023）20016412∑（A.5）��（A.4）无菌包装应作为一种投入，以评估其在预测图16. 气象变量的时间序列（2009年至2012年）（即，在印度西部灰色阴影区域代表季风期（即，JJAS; 6月-7月-8月-9月）。疟疾的爆发是雨季的内涝（丁例如，2014年，Podder等人，2019年，马宗达，2021年）。涝渍��=∑(��−�� )2(A.2)��=∑(��− ��)2(A.3)��疟疾爆发CRediT作者贡献声明Abhilash Singh：概念化，形式分析，方法论，软件，验证，可视化，写作-原始草稿。Manish Mehra：数据管理，验证，可视化，写作-原始草案。Amit Kumar：数据策展，可视化。M Niranjannaik：形式分析，可视化。Dev Priya：可视化，写作调查，方法论，资源，软件，监督，验证，可视化，写作竞合利益我们没有利益冲突需要披露。确认我们要感谢博帕尔提供的信息支持。AS感谢政府科学技术部（DST）。印度提供DST INSPIRE研究金（批准号：DST/INSPIREFellowship/[IF 180001]）。附录A. 性能度量我们使用以下公式计算R、RMSE和偏差的值。所有这些性能指标都被广泛用于评估任何基于回归的机器学习算法的性能。R的值在零（即，最坏的）到一个（即，best）。RMSE的值的范围从零（即，最好的是，最差）。偏置可以是正的（即，高估）或负（即，欠平衡）。�� = ��=1(��−�� ）2个= 1（��−�� ）的方式其中，误差平方和是误差平方和，总误差平方和是总误差平方和，预测值是预测值，观测值是观测值，观测值是观测数。引用阿赫塔尔河，&McMichael，A.（1996年）。拉贾斯坦邦西部的降雨和疟疾爆发。Lancet（London，England），348，1457阿隆索，D.，Bouma，M. J.，&Pascual，M.（2011年）。东非高原近几十年来疟疾流行和气温升高。英国皇家学会B，生物科学，278，1661-1669。Alshdaifat，E.，Alshdaifat，D.，Alsarhan，A.，Hussein，F.，El-Salhi，S.M. F. 美国，等人（2021年）。预处理技术应用于数值特征对分类算法性能的影响。数据611Arab，A.，Jackson，M. C.的方法，&孔戈利角（2014年）。模拟天气和气候对西非疟疾分布的影响。Malaria Journal，13，1Asteris，P.G.，P. C.，&Douvika，M. G.（2017年）。砂混凝土材料力学性能的前馈神经网络预测。传感器，17，1344。卡米纳德角，Kovats，S.，Rocklov，J.，Tompkins，A.M.，Morse，A.P.，Colón-González，F.J.，Stenlund，H.，Martens，P.，&劳埃德，S。J.（2014年）。气候变化对全球疟疾分布的影响。美国国家科学院院刊，111，3286-3291。卡米纳德角，McIntyre，K. M.，&琼斯，A. E.（2019年）。近期和未来气候的影响病媒传播疾病的变化。纽约科学院年鉴，1436，157。Corte-Valiente，A.D、Castillo-Sequera，J.L.，Castillo-Martinez，A.，Gómez-Pulido，J.M.，&Gutierrez-Martinez，J. M.（2017年）。用于分析室外照明系统整体均匀性的人工神经网络。能源，10，175。Di Gennaro，F.，马洛塔角，Locantore，P.，Pizzol，D.，&普托托湾（2020年）。疟疾和新冠肺炎：共同和不同的发现。热带医学和传染病，5，141.丁，G.，加奥湖，Li，X.，周，M.，刘昆，Ren，H.，&江湾，澳-地（2014年）。蒙城县涝渍混合法疟疾负担评价√��中国：案例研究。PLoS ONE

下载后可阅读完整内容，剩余1页未读，立即下载