没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁22(2021)100508利用气候变率和机器学习Odu Nkiruka,Rajesh Prasad*,Onime Clement尼日利亚阿布贾非洲科技大学计算机科学系A R T I C L EI N FO保留字:疟疾发病率气候变率用于医疗保健和数据挖掘的机器学习A B S T R A C T疟疾仍然是非洲社会经济发展的严重障碍。据估计,大约90%的死亡发生在非洲,那里的生态系统和气候条件等各种因素有利于传播疟原虫的蚊子。一些非洲国家建立了一些疟疾流行预测系统,以减缓疾病爆发的增加;但是,需要有更好的模型,根据气候条件的非季节性变化提高预测能力。这项研究提出了一个基于机器学习的模型,用于在28年的时间内使用撒哈拉以南非洲6个国家的气候变化对疟疾发病率进行分类。这项工作首先是一个特征工程过程,它确定了影响疟疾发病率的气候因素,然后是用于离群值检测的k-means聚类过程,然后是用于分类的XGBoost算法。研究结果表明,虽然疟疾发病率和气候变化之间的确切联系因地理区域而异,但三个气候因素(降水、温度和地表辐射)的非季节性变化对疟疾的爆发有显著影响。将该系统与其他分类模型进行了比较,结果表明,该系统的分类性能优于其他分类模型。疟疾发病率分类模式是一种早期发现机制,有助于监测疟疾的传播;这是一个独特的数据驱动的知识发现系统,将协助公共卫生当局了解气候因素对健康的影响,并制定相关的预防和适应机制,以确保提供 更及时的卫生服务,从而挽救生命。1. 介绍疟疾作为主要的全球健康挑战之一长期存在,主要流行于世界热带和亚热带国家它是撒哈拉以南非洲地区疾病和死亡的主要原因之一[1]。近年来,为加强疟疾控制和研究计划进行了大量投资,其中世界卫生组织(WHO)全球技术战略(GTS)规定每年投入64亿美元,作为到2023年实现疟疾发病率和死亡率下降90%的目标[2]。尽管有这些投资和世卫组织发起的一些其他根除战略,但撒哈拉以南非洲的疟疾发病率仍呈上升趋势[3]。疟疾是通过按蚊属雌性蚊子(主要媒介)的叮咬传播给人类的。这些带菌者靠吸食人类血液来产卵。在进食过程中,它们传播疟原虫寄生虫[4]。正如一些人研究人员[5]认为,该虫的生长发育主要取决于气候因素,包括温度、降雨量、相对湿度等,因此,气候因素的任何变化都会对蚊子生态产生影响[5]。这就是为什么气候和环境变量对疟疾发病率的影响一直是主要的研究重点[6]。众所周知,蚊子的所有形态(生长)过程强烈依赖于环境温度、水和停滞水体的可用性。人们非常关注降雨是增加蚊子繁殖地的主要因素;相反,干旱或极端洪水可能会减少繁殖栖息地[7]。一般来说,洪水可能会通过创造更多的蚊子繁殖栖息地来增加病媒传播疾病的传播[8]。降雨还促进植被生长,为病媒提供繁殖空间[9,10]。环境温度也可能导致疟原虫更快地发育,这可能导致疟疾的发病率更高[11]。现有的研究机构表明,气候* 通讯作者。电子邮件地址:nodu@aust.edu.ng(O. Nkiruka),rprasad@aust.edu.ng(R.Prasad),onime@aust.edu.ng(O.Clement)。https://doi.org/10.1016/j.imu.2020.100508接收日期:2020年6月10日;接收日期:2020年12月23日;接受日期:2020年12月24日2021年1月4日在线提供2352-9148/©2020的 作者。发表通过 Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊首页:http://www.elsevier.com/locate/imuO. Nkiruka等人医学信息学解锁22(2021)1005082变量有可能有利于或不利于调节蚊子媒介的繁殖生境和存活的努力[12]。在一些西非国家,气候因素对疟疾发病率的影响分析是使用一个统计模型进行的,该模型显示,在某些地区,温度、降雨量和疟疾发病率呈负相关,而在其他地区则呈正相关[13]。另一项研究是使用皮尔逊相关法确定埃塞俄比亚气候因素与疟疾发病率之间的关系。结果显示,该国一个地区的降雨量和相对湿度之间存在正相关关系,而其他地区的结果显示两者之间的关系不显著[14]。从这些研究中可以清楚地看出,地理位置和气象变量的差异可能以各种方式影响不同地区的疟疾发病率。最后,了解气候变化对疟疾发病率的影响程度至关重要。尽管所有的研究都是在预测疟疾发病率基于气候变量,撒哈拉以南非洲国家的地区,最暴露于疟疾流行,没有被考虑或详细研究。因此,随着这些地区疟疾病例的不断增加,迫切需要解决这些问题,并制定能够加强卫生部门决策的尖端解决方案。本文提出了一个模型来分析气候变率对撒哈拉以南非洲国家6个疟疾流行区的影响,并根据气候变率将疟疾分为高发病率和低发病率病例。气候变率被描述为气候变量在特定时期内的增加或减少。为了实现疟疾发病率早期预测的前沿方法,需要进一步探索机器学习(ML)在医疗保健中的应用。ML提供了从数据中提取知识的能力,使用分类的相关模式。这些模式有助于医疗诊断和决策。本研究工作的方法包括特征工程过程来测试气候变化在疟疾发病率中的统计显著性,并且只选择相关数据,K均值聚类用于离群值检测(如果有的话),以及EX treme Gradient Boosting(XGBoost)算法用于分类。特征工程涉及使用领域知识,通过应用数据挖掘过程从原始数据中提取相关特征[15]。K-means聚类用于将数据集划分为不同的相关聚类[16],以清理数据并检测离群值。XGBoost分类器是一个强大的ML模型,用于加快分类过程并提高准确性[17]。的 密钥贡献 本 纸 一 机器学习模型适用于基于气候因子非季节性变化的疟疾暴发的二元预测。本文件其余部分的组织如下。第二部分是相关文献综述。第3节介绍了系统架构和使用的数据集。第四部分给出了系统的流程图和算法。第5节讨论了从所提出的系统实验中获得的结果,并进一步解释了特征变量的统计意义。第六部分总结全文,并提出扩展研究的方法2. 相关作品撒哈拉以南非洲国家,如布基纳法索、马里、尼日尔共和国、尼日利亚、喀麦隆和刚果民主共和国(DRC),是疟疾发病率最高的地方[3]。气候变率被视为气候变量的异常,包括降水、相对湿度、地面辐射、气温和大气压力[18]。使用机器学习方法进行基于气候的疟疾发病率预测的研究并不占主导地位,并且没有任何工作考虑这些选定的撒哈拉以南非洲国家。本文提出了一个基于机器学习的决策支持系统,该系统将疟疾发病率分为高和低目标类根据气候变化。自回归积分滑动平均(ARIMA)和季节性ARIMA(SARIMA)是简单的随机时间序列模型,已被应用于疟疾预测研究。它们用于训练,然后预测未来的时间点。自回归(AR)部分显示了感兴趣变量滞后值的回归。误差项与并发值的线性组合由移动部分显示,而积分(I)部分指定当前值和先前值之间的差异的结果。每个特征都旨在使模型准确地拟合数据[19]。因此,使用具有Xt的时间序列数据,其中t代表整数索引,Xt是实数,ARIMA(p′,q)模型使用等式(1)获得如下:Xt-α1Xt-1-自回归参数,θi=移动平均参数,εt=误差项Adeola等人[20]使用时间序列数据分析了南非Nkomazi市的疟疾发病率和环境报告在表明降雨是影响该地区疟疾发病率的主要因素之后,他们的SARIMA模型能够预测未来三个月疟疾的可能发病率类似地,一些作者[21]提出了一个基于气候的预测系统,使用SARIMA模型预测印度安得拉邦的疟疾。该模型基于疟疾病例数据中季节性自相关的当前模式来预测疟疾病例预测模型显示疟疾病例受气候因素的影响较大,主要是降雨量和温度。在此之后,在印度维沙卡帕特南地区发现的疟疾趋势出现了明显变化虽然全年都有疟疾传播的报告,但雨季记录的疟疾病例更多在一项研究中,作者[22]将ARIMA模型应用于阿富汗疟疾发病率的时间序列数据他们的模型能够确定疟疾在7月至9月期间一直处于高峰期,并且在撒哈拉以南非洲的1月期间总是减少。这也表明,高降雨量和潮湿的温度可能是疟疾爆发和传播背后的重要因素ARIMA模型是一种理想的表示季节性数据特征的模型,但它缺乏对天气因子协方差的良好解释另一统计模型由Olusola等人提出[23]他使用动态回归通过将负二项模型与时间序列模型相结合,建立了一个模型,以确定阿库雷疟疾病例与气候变量之间的关联他们的研究结果总结说,每月最低温度的增加显着增加了疟疾传播的可能性,从而导致住院和门诊疟疾病例数量的增加。这与Mahdi等人的结果相似[24]。Tompkins等人[25]提出了一个使用统计工具VECTRI的疟疾早期预警系统,该系统可以预测乌干达疟疾传播率这一预警系统包括一个预测疟疾病媒昆虫接种率的动态疟疾模型。以类似的方式,基于随机网格的疟疾(SLIM)模型是另一种统计疟疾预测模型,用于模拟按蚊病媒丰度的变化、疟原虫寄生虫的生命周期,甚至使用肯尼亚预计的气候变化进行疟疾传播。本研究调查了气候变化对疟疾传播动力学的综合影响,通过气温升高引起的疟原虫孢子生殖周期的调整,以及由高浓度(CO2)下植物的适应性反应引起的繁殖环境变化引起的按蚊媒介的生殖营养周期[26]。Kim等人提出的另一种统计模型。[27]使用统计方法来识别非线性,O. Nkiruka等人医学信息学解锁22(2021)1005083疟疾传播与温度和降水等气候因素之间的延迟关联,然后使用SINTEX-F2海-表1对现有模式进行比较研究气候预报预测Vhembe,Limpopo,和南非。 这项研究只考虑了两个气候因素,参考文献所用办法优势劣势气候变化的影响可能不足以确定气候因素对疟疾病例的影响。从各种统计方法中获得的结果是显著的;然而,基于机器学习(ML)的方法可以提供更好的预测,因为它具有从真实世界数据中找到复杂模式和因果机制ML算法的应用有助于医疗保健提供者在决策过程中识别有效的治疗方法和最佳措施。以前的研究使用机器学习技术进行疟疾预测,例如使用支持向量机(SVM)基于气候变量预测疟疾爆发的预警系统。他们提出了一个系统,该系统可以从免费的天气和地理应用程序接口(API)中读取气候信息,如温度、相对湿度、风速、太阳辐射和降水量,然后预测疟疾的可能发病率[28]。中国的另一项研究使用了一套机器学习算法,这是一种技术,19-具有周期性或季节性特征的系列数据21ARIMA这一方法根据平均机制正确预测了阿富汗的疟疾发病病例,往往比使用移动平均数的先前值提前一步,并有能力发现时间序列数据中的基本模式并量化其影响。它只适用于静止或季节性过程。ARIMA模型是对时间序列的先验数据进行简化预测的理想模型。它不适合预测非季节性数据。一种新的框架,它结合了许多学习算法来完成学习任务,并获得比任何不同的学习算法更好的预测性能。作者基本上使用堆叠方法通过训练元学习算法来最小化泛化误差,以结合各种不同的主要学习算法的预测,使用气象变量(如相对湿度,温度,蒸汽压,气压,每日降水量,湿度水平,风速和日照时间)预测疟疾为阳性和阴性[29]。类似地,Thakur et al.[30]提出了一种人工神经网络模型,该模型使用环境变量,如植被指数,降雨量,温度,相对湿度和临床数据的每日报告来预测印度疟疾的他们的研究旨在确定疟疾发病率始终处于高峰的确切时期,并利用观察到的信息预测未来几年的疟疾病例值他们的研究表明,ML算法可以成功预测世界某些地区可能爆发的疟疾这些预测模型大多数都是成功的,但这些方法都不能被设定为基于气候变化的疟疾预测的金标准,因为每种方法都有一个独特的建模规范,因为预测方法取决于研究区域的行为表1总结了现有方法.这篇研究论文提出了一个框架,使用XGBoost分类法,根据非季节性气候变化对疟疾发病率进行分类 模型 目前, 没有 最近 工作 具有审议了本文所使用的技术和这六个疟疾流行国家。22二项式模型26SINTEX-F2负二项模型正确地确定了气候变量与疟疾传播率之间的关系。数据集中的动态,并提供了一种破坏疟疾的机制。该模型具有灵活性和可解释性,描述了疟疾病例与气象因素之间的非线性和非线性延迟关系。该模型只考虑了气候变量与尼日利亚阿库雷疟疾传播率之间的关系。这项研究还使用了统计方法,这种方法在观察数据中复杂的模式方面效率不高。该模型使用统计模型预测乌干达疟疾传播的确切值,这可能不适合在随后几年进行预测。该模型只考虑了疟疾病媒和气候变量之间的关系,使用的是统计模型。这只考虑了两个气候变量,如降水和温度。SINTEX-F2模型可能容易受到不确定性的影响,这可能导致对疟疾这篇论文通过确定导致这六个国家疟疾高发病率的隐藏气候因素做出了重大贡献。这项研究的成果将有助于更好地了解疟疾传播机制,也有助于疟疾干预和根除计划。在此之后,收集的信息将帮助决策者了解下一年特定地区疟疾的混杂因素,然后使用预测模型准确预测连续的疟疾发病率,并主动采取行动应对疫情。3. 系统架构27SVM使用偏最小二乘路径建模(PLS-PM)方法来研究气候变量之间的因果关系。他们进一步应用了一些机器学习算法来检测可以准确预测疟疾爆发的模型。SVM模型给出了最好预测精度例支持向量机模型相对较好地工作,目标类之间的边界清晰分离,在高维空间中更有效。本节重点介绍了实施疟疾发病率分类模型(MIC)所采用的不同工具和技术,以及用于评估拟议系统性能的指标。28集成学习他们的结果表明,集成方法的性能高于传统的时间序列模型。该研究没有探索所有的预测模型;因此,可能很难建立最可靠的叠加(接下页)24VECTRI使用统计工具预测乌干达疟疾传播的异常情况。25苗条非常适合捕捉不确定性,O. Nkiruka等人医学信息学解锁22(2021)1005084表1(续)3.1.1. 临床资料参考文献所用办法优势劣势疟疾病例预测框架。从世卫组织数据库中获得了所有六个选定国家从1990年至2017年28年期间确认的疟疾发病率[33]。该数据集包含每1000人中疟疾年确认发病率的标准化值,该值是通过除以29ANN该模型使用机器学习技术提取了温度、降雨量、相对湿度和植被指数等气象变量之间隐藏的复杂非线性关系,用于印度Khammam地区的预测。3.1. 研究中心考虑到疟疾流行率,其次,预测疟疾的确切值可能导致不正确的预测。按国家相关人口规模分列的确诊疟疾病例。确认的疟疾发病率是已经由不同的医院和保健中心确认和记录的疟疾发病率报告,然后转移到WHO,WHO是联合国的专门机构,负责与公共卫生有关的事务,并且为了消除疾病的决策目的,需要各国的年度健康报告。图2显示了过去28年来六个选定区域的疟疾年发病率3.1.2. 气候数据气候数据收集自国家大气研究中心(NCAR)的储存库[34]。NCAR数据集包含28年(1990-2017)的观测数据。日常撒哈拉以南非洲地区的6x个国家,包括布基纳法索、马里、尼日尔共和国、尼日利亚、喀麦隆和刚果民主共和国,由于疟疾在这些国家的地方性,因此被选择用于研究其地理位置说明如下:尼日利亚位于北纬4度至14度之间,东经2度至15度之间,人口约为206,139,589人。马里位于北纬10度至25度之间,西经13度至东经5度,人口20,250,833人。 尼日尔共和国位于北纬11度至24度之间,图德斯0公里和16公里,人口24,206,644。喀麦隆是-通过地球系统观测获得的记录包括以下变量:大气压力,地表温度,降水量,地表辐射和相对湿度。本研究只考虑了气候变量和疟疾发病率报告的年度记录,因为在六个选定的国家中有疟疾的年度发病率报告。年降水量在1192 - 1694毫米之间,年气温在25.0-29.5摄氏度,年相对湿度在40.2摄氏度和45.5摄氏度之间,年表面辐射范围在220到240摄氏度之间,最后,位于北纬1度至13度之间,东经8度至17度之间,人口21,917,602人。布基纳法索位于北纬9度至15度之间,西经6度至东经3度之间,人口20,321,378。刚果民主共和国位于北纬6度和南纬14度之间,东经12度和32度之间,人口84,068,091。 虽然总人数在-各国的压力在99,814和99,820 pa之间。3.2. 数据集描述硅X选择全世界疟疾发病率每年都在下降,然而,尽管已采取措施减少疾病传播,但这些选定国家的情况没有显著变化32。因此,了解气候变化如何影响这些地区的独特性将有助于这些国家有效控制这种疾病和决策。图1显示了所选的六个国家的地理地图。该数据集包含来自世界卫生组织的28个疟疾年度发病率记录和六个国家的年度气候数据。每个国家共有28项记录,涵盖1990-2017年期间。该数据集共有5个属性(独立变量),代表气候变量和一个目标(因)变量,代表疟疾发病病例的增加或减少。数据集中的属性包括:降水、地表辐射、温度、大气压力和相对湿度,而疟疾发病率是目标类。表2显示了原始的图1.一、 六个选定地区的 地 理 图 及其疟 疾 流行情况。( 资料来源:世界卫生统计,1990-2017)。O. Nkiruka等人医学信息学解锁22(2021)1005085∑x=--+号图二、6个 选定 区 域 每1 000人疟 疾年 发 病 率 。(来源:Authors)。表2预处理前的数据集样本日期(年/月/日)降水R_湿度大气压_温度S辐射压力疟疾发病率6/16/19900.81299844.670525.5804292.1779720817720.776/16/19910.98019945.874125.4737287.06197218.817708.786/16/19920.85180446.521525.0838290.03197235.717658.166/16/19930.8369446.672625.3986292.729721017525.486/16/19941.1567946.818525.4253297.06897232.317363.396/16/19950.95887447.274225.5901292.39197201.217556.836/16/19960.82733848.395225.5854294.09297144.817850.52数据处理前。3.3. 数据预处理数据集由连续变量组成,这些变量由于来源不同而具有异质性和不一致性。在数据挖掘原理中,数据质量对于实现疟疾发病率变异性预测的高准确性至关重要;因此,对数据集应用了一些预处理技术[35]。在气象专家和卫生专业人员的指导下,对气候变量进行了深入研究,分析了这些变量对疟疾传播和发生的健康意义,发现气压对疟疾发病的影响不显著,这与统计结果相一致。使用minmax_scaler对数据集进行归一化,以将它们统一到相同的尺度。在此之后,目标变量从连续变量转换为离散变量,使用其中一种方法,世界卫生组织提出的疟疾发病率阈值[33]。过去28年(n= 28)的年平均值加上2乘以标准差(SD),如公式(2)x=总体平均值xi=年度发生率报告n=总年数SD=标准差每个国家的阈值如下:布基纳法索:13185.2,尼日利亚:215,096,刚果民主共和国:2833.52,马里:26321.5,喀麦隆:25755.8;尼日尔:2361.83。因此,只要疟疾发病率超过这些阈值,就被视为高发病率,反之亦然。目标变量分为两个输出类,即:1和1。在预处理结束时,数据集没有缺失值的记录。表3呈现了表2的预处理数据的样本。4. 拟议工作本节详细描述了用于系统实现的流程图和伪代码。4.1. 使用统计显著性的特征工程n Xini=1(二)本文中的特征工程过程涉及使用统计相关分析来确定相关度SD=√̅∑̅(̅ xi-̅ x̅)̅2n(三)船舶之间的相对运动的两个变量[36]。通过Pearson相关分析考察特征变量与目标变量之间的关系,疟疾发病阈值 =x+2(标准差)(4)其中:气候变量与疟疾发病率之间的关联强度。皮尔逊相关系数介于1和1之间,其中1表示负相关,0表示无相关,而1表示强正相关。该度量表示为O. Nkiruka等人医学信息学解锁22(2021)1005086σxσy======公司简介=∑=ji=数学上使用等式(5)。这一阶段的目的是帮助只选择对疟疾发病率有很大影响的特征变量。获得适当的数据大小。显然,在聚类过程结束时,约0.012%的离群值被检测到并从数据集中删除。p(x,y)=σxy其中:σx =x的标准差σy=y的标准差σxy=总体协方差4.1.1. 共线性检验(5a)4.3. 极端梯度提升(XGBoost)EX treme Gradient boosting,通常称为XGBoost,是一种用于解决回归和分类问题的机器学习方法。它在预测模型中提供结果,主要是以树的形式[17]。它在内存使用方面具有可扩展性和高效性,并通过并行和分布式计算推动快速学习。该模型适合我们的数据集的性质,因为它对于提高样本较少的类的准确性很重要。建议MIC模型使用XGBoost模型实现这种模式允许用户运行共线性发生在预测变量之间存在线性关系时。为了识别具有高共线性的预测因子[30],使用方差膨胀因子(VIF)来确定变量之间检查后,如果VIF小于或等于1,则表示无共线性,但如果VIF大于1,则表示共线性。VIF在数学上使用以下等式表示:(6)和(7)如下:在boosting过程的每个迭代阶段进行交叉验证;这有助于在每次运行中获得boosting迭代的精确最佳次数。需要进行超参数优化以实现更高的精度。在MIC模型的训练中选择了以下超参数:i Learning_rate 0.2;它是一个有助于防止过拟合的步长,其值范围在[0,1]之间。VIF = 112(六)ii Max_depth= 6;这决定了每棵树的深度,-Ri其中:i=预测因子(x1, x2,和R2[.1-R2)(n-1)](7)在每一个提升阶段中成长。iii. n_estimators 100,要构建的树的数量iv. Gamma 0.1;它根据分割后损失的可预测减少来v. scale_pos_weight 1;它有助于更快的收敛。vi. min_child_weight 1;用于控制过拟合。vii. 种子10;随机数种子可用于参数调整和创建可再现的结果adj=2adjn-k-1=调整后的R平方4.4. 性能度量以下性能指标用于测试性能-n=数据样本的总数k=特征变量4.2. K-means聚类聚类 链分割 大量的数据点, 一个小MIC模型的优点:4.4.1. 分类精度这是准确预测的总数与使用的输入样本这在等式(10)中示出。准确预测集群的数量。它以这样一种方式对对象进行分组,即通过测量具有相似特征的对象在准确度=预测总数(10)距离[16]。在这项研究中使用K均值聚类来检测离群值并清理数据集。实现这一目标的步骤包括:步骤1:初始化k 2.通过使用欧几里德距离作为相似性度量将每个输入数据分配给最近的平均值来创建k个聚类,如等式(8)所示。Si(t)={xp:xp-m(it)2≤xp-m(it)2≤j,1≤j≤k}(8)4.4.2. 曲线下面积(AUC)AUC用于评估二元分类问题。AUC评分可很好地总结受试者工作曲线的性能。最近的一项研究表明,AUC是比准确度更好的性能指标[37]。在假阳性率(FPR)和真阳性率(TPR)之间绘制受试者工作特征(ROC)曲线,代表模型的性能,然后计算AUC评分。使用等式(11)和(12)计算模型的灵敏度和特异性。步骤2:通过重新计算平均值或质心来更新分配给每个聚类的输入数据的质心,如等式(9)所示。迭代地执行步骤(1)和(2),直到平均值灵敏度真阳性真阳性+假阴性真阴性(十一)的集合。m(t+1) 1x(t)xj∈Si(t)步骤3:通过丢弃不适当聚类的数据来去除离群值,并从该过程中生成不同大小的新数据集。如果数据的新大小达到70%,则执行分类过程;否则,重复k均值过程,直到特异性=真阴性+假阳性(12)4.5. 系统实现疟疾发病率分类(MIC)模型的实现是使用支持Python3.6编程语言的Anaconda 3完成的。它是一个开源软件,包含一些支持机器学习和数R(九我O. Nkiruka等人医学信息学解锁22(2021)1005087据科学应用的软件包。MIC的设计流程在算法1和图1中说明。3.第三章。O. Nkiruka等人医学信息学解锁22(2021)1005088算法1.MIC模型的设计包括以下步骤:表3预处理后的数据集样本电话:+86-10 - 8888888传真:+86-10 - 88888888电话:+86-10 - 22037777传真:+86-10 - 22037777粤ICP备16011561号-11.637181 1.333713 0.10851 0.04944-0.14897-10.561079-0.20725-0.02379-0.20566-0.48692 10.744139 1.126933-0.7237 0.109499-0.55933 1降水R_湿度空气温度S辐射压力疟疾发病率-0.50512-0.74055-0.9594-0.496440.343463-1O. Nkiruka等人医学信息学解锁22(2021)1005089=5. 结果和讨论图3.第三章。 疟疾发病率分类(MIC)模型流程图。与六个选定国家的压力呈负线性关系表4(a)显示,刚果民主共和国的降水量、地面辐射、相对湿度和疟疾发病率之间存在显著的正线性关系。在表4(b)中,尼日尔本节介绍了从实验中获得的结果,并进一步解释了所提出的MIC模型与另一种机器学习算法的比较结果。5.1. 气候变率与疟疾发病率特征工程阶段(参考第4.1)涉及使用皮尔逊相关分析来评估预测变量和目标变量之间的关系。进行假设检验,以确保特征和目标变量之间存在足够强的线性关系,以模拟样本数据中的关系。如果p值小于显著性水平(α 0.05),则我们拒绝零假设,即疟疾发病率与气候变率之间没有关系,并接受疟疾发病率与气候变率之间存在显著的线性关系。表4(a)-4(f)列出了所产生的相关系数矩阵X及其在6X个国家中的相应p值。结果显示,每个国家都存在显著差异在95%置信区间和p 0.05。<结果表明,疟疾发病率与气温、降水量呈显著的线性正相关,与降水量、地面辐射呈线性正相关,与气压、地面辐射、相对湿度呈线性负相关。同样,在表(4c)中,马里的疟疾发病率与气温和降水量呈正线性关系,与相对湿度、地面辐射和气压呈负线性关系。表4(d)显示,在尼日利亚,疟疾发病率与降水量、气温之间存在显著的正相关关系,而压力、地面辐射和相对湿度与疟疾发病率之间存在负相关关系。表4(e)显示,喀麦隆疟疾发病率与降水量、地面辐射、气温和相对湿度呈显著的线性正相关,与气压呈负相关。最后,表4(f)在布基纳法索,气温、降水量、地面辐射和相对湿度与疟疾发病率呈显著的正线性关系,气压与疟疾发病率呈结果表明,气候变化对疟疾发病率的影响并不是同质的,而是因国而异。表5总结了特征工程过程,并根据其对疟疾发病率的统计显著性显示了选定的预测因子。符号O. Nkiruka等人医学信息学解锁22(2021)10050810+表4显著性表。表4a. DRCX Y r p值在实施这些系统之前必须考虑这一因素。数据集被分成70:30的比例,其中70%(18个重新分配)Cord)作为训练集,30%(8条记录)作为测试集。在计算期间使用k=5的K-折交叉验证(CV)技术培训过程。CV技术有助于减少数据中的偏差,疟疾发病率压力-0.330831 0.085508S辐射0.197373 0.314065空气温度-0.573343 0.001426R-humidity 0.053995 0.784939表4b. 尼日尔X Y r p值疟疾发病率压力-0.019006 0.923524S辐射0.691280 0.000046空气温度-0.573343 0.001426R-湿度-0.660484 0.0000131表4cX Y r p值疟疾发病率压力-0.056212 0.776325S辐射-0.613487 0.000517空气温度0.683682 0.000061R-humidity-0.056212 0.776325表4d. 尼日利亚X Y r p值疟疾发病率压力-0.495941 0.007276S辐射-0.613487 0.000517空气温度0.338675 0.0477915表4e. 喀麦隆X Y r p值疟疾发病率压力-0.327888 0.088499S辐射0.048337 0.807032空气温度0.658249 0.000140R-humidity 0.048247 0.807383表4f. 布基纳法索X Y r p值疟疾发病率压力-0.595829 0.000821S辐射0.015477 0.937696空气温度0.694094 0.000042R-humidity 0.041713 0.833080没有预测器,分别。5.2. MIC模型从特征工程过程中获得的结果有助于通过减少原始数据集中的变量数量来去除不相关的特征,如表5所示,这有助于管理离群值和不一致的数据。特征工程的一个关键优点在机器学习模型中获得良好的精度,特别是在医疗保健提供系统中,是至关重要的,表5疟疾发病率分类的输入变量(预测因子)克服过拟合,这可能是由于数据集的数量[38]。CV过程重复k次,而训练集被分成5个不同折叠的子集,形成训练集,其中每个子集用作其他4个子集的测试集。然后对k个结果进行平均以获得单个估计。首先在训练集上进行超参数优化,以使用网格搜索算法选择最佳超参数。网格搜索算法主要尝试参数值的所有可能组合,然后以最大精度返回组合。对于每次迭代,通过分别拟合和评分每个超参数组合来测试所有可能的超参数组合。最后,选择最好的超参数。使用测试集评价MIC模型的准确度和AUC评分。图4显示了代表MIC模型在六个国家的性能的ROC和AUC评分。从图4中可以清楚地观察到,对于马里、喀麦隆、刚果民主共和国、尼日利亚、尼日尔和布基纳法索,SIX数据集分别产生0.97、0.94、0.91、0.97、0.94和0.92的平均AUC评分。5.3. 结果比较为了验证MIC模型的性能,表6给出了MIC模型与其他ML分类模型(如朴素贝叶斯、支持向量机(SVM)和逻辑回归(LR))之间的平均准确度得分的比较分析,这些模型使用基于不同变化的相同数据集(如原始数据集和特征工程数据集k-means聚类)。在表7中,当与表6的结果相比时,特征工程化数据集和k均值的集成提高了用相同数据集建模的不同算法的准确性。虽然每个国家的结果各不相同,但与其他分类器相比,XGBoost模型的拟议应用仍然导致了在六个国家测量的最高准确性。与此类似,LR似乎也很有前途,因为它对某些数据集给出了接近的准确性结果。此外,我们观察到,与使用原始数据集获得的结果相比,特征工程数据集和k均值在提高模型的准确性方面发挥了重要作用。值得注意的是,XGBoost在6个不同的数据集中表现最好,证明MIC模型是对6个选定国家的疟疾发病率进行5.4. 讨论为了验证和选择最适合每个国家的模型,我们计算了赤池信息标准(AIC)和模型的赤池Akaike信息标准(AIC)是一种用于在比较期间选择最佳模型的技术[39]。AIC得分通过最大似然参数估计来计算,而赤池权重通过计算AIC值和相对似然估计的差来获得选择具有最高Akaike权重的模型我们使用了以下数量的马里+输入变量/国家降水压力表面辐射空气温度相对湿度DRC+––+–O. Nkiruka等人医学信息学解锁22(2021)10050810图四、6个国家的ROC和AUC评分。表6原始数据集的精度值,无需特征工程。模型/国家XGBoost SVM Naïve Bayes LR布基纳法索0. 86 0. 72 0. 700.77(b)其他费用刚果民主共和国(a)建筑物尼日尔共和国尼日利亚表7使用特征工程数据集+K均值聚类建模的数据集的准确度值。模型/国家XGBoost SVM Naïve Bayes LR布基纳法索0. 97 0. 79 0. 740.82(b)其他费用刚果民主共和国(a)建筑物尼日尔共和国尼日利亚O. Nkiruka等人医学信息学解锁22(2021)10050811=†表8赤池重量为四个拟合模型。国家/型号MIC模型朴素贝叶斯SVMLRB. 法索0.496890.007520.033670.22177喀麦隆0.498690.007740.033690.22037DRC0.491090.007590.033390.22602马里0.497770.007590.033950.22097尼日尔0.499880.007550.033270.21982尼日利亚0.499760.007390.032770.22021参数:MIC型号:7个参数(参考第4.3节),朴素贝叶斯:1个参数(var_smoothingfloat是NB中的一个参数,它已被设置为:默认值为1 e-9,表示所有特征的主方差与方差相加的分数,以确保计算稳定性)。SVM:1个参数(内核=线性)和LR:1个参数(使用参数:求解器='liblinear')。表8显示了用赤池权重拟合四个不同模型得到的假设结果。可以观察到,MIC模型在six个不同的数据集上具有最高的Akaike权重;这证明MIC模型是对撒哈拉以南非洲的six个国家的疟疾发病率进行6. 结论和今后的工作本文提出了一种新的基于ML的智能系统,该系统能够使用现实世界的数据来分类基于气候变化的疟疾发病率的变化。结果表明,在撒哈拉以南非洲的6个选定国家,疟疾发病率的波动随气候变化条件而变化。此外,影响疟疾发病率的主要气候变量因国而异,方式也各不相同。在所有研究的6个地点中,温度与疟疾变异有很强的统计线性关系,降雨和地面辐射也对疟疾变异有一定的影响。为了实现MIC模型的良好精度,特征工程过程有助于从数据集中去除不相关的特征,并且k-means用于清理数据集并去除离群值,最后,优化XGBoost模型的超参数也有助于改进所提出的系统。这项研究的结果有助于提高决策水平为未来疟疾的爆发做好充分准备。这一系统还将帮助每个选定国家的政府了解导致这种疾病高度传播的气候因素,从而调节可能对气候条件产生不利影响的环境因素,从而减少这些国家的疟疾发病率。它还可以加强预算编制,特别是在部署根除机制时,如宣传计划和共享驱虫蚊帐或疟疾药物。这项研究只考虑了年度数据,因为没有疟疾发病率的每日报告,这可能有助于我们模拟气候因素的季节性变化。其次,提高本工作中提出的模型的预测能力需要更大的数据集,特别是对于已确认的疟疾发病率,可能具有与气候观测相似或更好的分辨率。今后的工作将涉及获得关于已确认疟疾发病率的适当数据集,可能是时间序列数据,可以按季节对重要的疟疾季节进行分层,以加强系统的实时预测。竞合利益作者声明,他们没有已知的可能影响本文所报告工作引用[1] 2019年世界疟疾报告。 2019年。[2] Brenas JH,Strecker M,Echahed R,Shaban-Nejad A.应用于疟疾监测中的图形IEEE Access 2018;6:64728-41.https://doi.org/10.1109/ACCESS.2018.2878311网站。[3] 非洲南疟疾2019年。p. 1比3。[4] 世界卫生组织。疟疾监测、监测&评价:参考手册。 2018年[5] Makinde OS,Abiodun GJ,Ojo OT.尼日利亚阿库雷疟疾发病率模型:负二项分布法。2020年地球杂志。https://doi.org/10.1007/s10708-019-10134-X。0123456789。[6] Orimoloye IR,Mazinyo SP,Kalumba AM,Ekundayo OY,Nel W.气候变率和变化对城市和人类健康的影响:综述。城市2019;91:213-23.https://doi.org/
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功