没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁25(2021)100691使用人工智能预测冠状病毒(SARS-CoV-2)疾病(COVID-19)的流行曲线:第一和第二阶段的应用第二次浪潮La'szl o' Ro'bertKolozsv'aria,b,*,Ta ma'sB'erczesc,And ra'sHajduc,RudolfGesztelyid,AttilaTibac,Imre Vargac,Ala'aB. Al-Tammemia,b,Ger goZhaj o'zsef S zoZhalloZhaisia,SzilviaHars'anyib,e,SzabolcsGarbo'czyb,f,JuditZsugaea匈牙利德布勒森德布勒森大学医学院家庭和职业医学系b匈牙利德布勒森德布勒森大学健康科学博士学院c匈牙利德布勒森德布勒森大学信息学院d匈牙利德布勒森德布勒森大学医学院药理学和药物治疗系匈牙利德布勒森德布勒森大学公共卫生学院卫生系统管理和卫生保健质量管理系f匈牙利德布勒森德布勒森大学Ken'ezy医院精神科A R T I C L EI N FO保留字:COVID-19人工智能流行病曲线循环神经网络长短期记忆A B S T R A C T目标:COVID-19大流行被视为对全球公共卫生的重大威胁。本研究的目的是利用官方流行病学数据,使用基于人工智能(AI)的递归神经网络(RNNs)预测COVID-19的流行曲线(每日新增病例),然后将预测模型与观察数据进行比较和验证。方法:我们使用来自世界卫生组织和约翰霍普金斯大学的公开数据集来创建一个训练数据集,然后使用具有门控重复单元(长短期记忆- LSTM单元)的RNN来创建两个预测模型。我们提出的方法考虑了一个基于集成的系统,这是通过互连几个神经网络实现的。为了实现适当的多样性,我们冻结了一些控制模型参数更新方式的网络层。此外,我们可以通过迁移学习提供特定国家的预测,并通过政府约束的额外特征注入,实现更好的长期预测。我们计算了均方根对数误差(RMSLE),均方根误差(RMSE)和平均绝对百分比误差(MAPE),以彻底比较我们的模型预测与观测数据。结果:我们报告了法国、德国、匈牙利、意大利、西班牙、英国和美国的预测曲线。我们的研究结果强调,COVID-19大流行是一种传播源流行病,因此预计流行曲线会出现反复的峰值。此外,预测和验证的数据和趋势之间的误差似乎很小。结论:我们提出的模型在某些情况下预测COVID-19新发病例的准确性令人满意。这一流行病的影响在全世界范围内是巨大的,已经影响到大多数生活领域。决策者必须意识到,即使执行和维持严格的公共卫生措施,未来也可能出现感染高峰。基于人工智能的模型是预测流行病的有用工具,因为这些模型可以根据新观察到的数据重新计算,以获得更精确的预测。* 通讯作者。匈牙利德布勒森德布勒森大学医学院家庭和职业医学系电子邮件地址:kolozsvari. med.unideb.hu(L.R. Kolozsv'ari).https://doi.org/10.1016/j.imu.2021.100691接收日期:2021年3月5日;接收日期:2021年7月21日;接受日期:2021年8月1日2021年8月8日网上发售2352-9148/© 2021作者。出版社:Elsevier Ltd这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表医学信息学期刊主页:www.elsevier.com/locate/imuL.R. Kolozsva'ri等医学信息学解锁25(2021)10069121. 介绍1.1. 2019冠状病毒病当前形式的严重急性呼吸道综合征被称为COVID-19,是由以前已知的高致病性冠状病毒科的一种新变体引起的。据称,该感染于2019年底开始从中国湖北省省会武汉传播[1,2]。于二零二零年三月十一日,世界卫生组织(WHO)将COVID-19定性为全球大流行病。早期的基因组测序发现,这种被国际病毒分类委员会命名为SARS-CoV-2的新病毒与SARS-CoV的同源性为79.6%,与蝙蝠冠状病毒的序列同源性为96%,表明与SARS-CoV(严重急性呼吸综合征相关冠状病毒)有共同的起源。此外,怀疑的宿主被认为是一种蝙蝠,菊头蝠(一种马蹄蝙蝠),但SARS-COV-2可能需要一个中间宿主[2,3]。与COVID-19相关的症状可能包括发烧,咳嗽,呼吸短促、肌肉疼痛、意识模糊、头痛、喉咙痛、流鼻涕、胸痛、腹泻、恶心和呕吐[4]。病毒的潜伏期估计为1至14天(平均5天)[5]。已经确定了几种传播途径,包括呼吸道飞沫/气溶胶、直接接触病毒污染的物体以及可能的粪-口传播[6]。暴发性疾病的患者似乎传染性最强,但报告也发现了无症状和症状前的病毒脱落。也缺乏关于人类之间三级和四级传播的确切数据,但似乎接触过感染的人可能获得了一些(至少是暂时的)免疫力[7]。1.2. 每日新诊断感染人数-流行曲线来自中国湖北的COVID-19疫情的初始流行曲线显示出混合模式,表明早期病例可能来自一个连续的共同来源,例如,来自武汉的几起人畜共患病事件,其次是二次和三次传播,为后来的病例提供了传播来源[8]。传播(或渐进源)流行病曲线可视化了可能从单个指示病例开始在人与人之间传播的传染性病原体的传播,该传染性病原体继续进一步感染其他个体。这表现为流行病曲线上的一系列峰值,从指示病例开始,随后是连续的感染波,相对于病原体的潜伏期分开在采取适当的缓解措施、预防或治疗措施或易感人群被感染之前,这些波会继续相互跟随这是一个理论曲线,通常受许多其他因素的影响[8]。几项研究调查了不同干预措施的影响图1.一、 不同国家从第一波大流行以来的历史数据集。关于最大限度地减少人口接触率,以延缓感染传播,最大限度地降低COVID-19死亡率和医疗保健利用率,或抑制疫情本身。通过降低高峰发病率使曲线变平可能会限制总的病死率。尽管如此,大多数早期的预测和模拟都是从钟形曲线开始的,考虑到病毒已知的二级、三级甚至四级传播性,这些曲线未能解释目前疫情的渐进性。考虑到这一点,建议在大流行控制措施不再有效后,病例数可能再次上升[9]。大流行的动态和特征也可能与病毒的新变种有关[10]。1.3. 使用人工智能各种数学模型可以演示和预测不同传染病的动力学[11]。这些用于模拟传染病动态的模型可能基于统计、数学、经验或机器学习方法[12]。在医学中使用人工智能(AI)的第一次尝试是在20世纪70年代。最初,人工智能被用于实施帮助临床决策的程序,但到目前为止,它的使用在生物医学科学中得到越来越广泛的接受[13]。一类人工智能,一种人工神经网络形式,具有长短期记忆(LSTM)的递归神经网络(RNN)先前用于建模和预测流感流行,具有强大的竞争力和可靠的结果[14,15]。在COVID-19疫情期间,多项模拟研究报告使用不同的人工智能方法预测COVID-19的预测。关于LSTM的使用,Ghany等人(2021)报告使用具有十个隐藏单元的LSTM算法来预测COVID-19在六个海湾国家的确诊病例和死亡人数方面的传播[16]。在印度,基于LSTM的数据驱动模型被用于预测病例和康复,考虑到政府实施的预防措施,如封锁和隔离[17]。此外,Chimmula和Zhang(2020)报告了一项早期研究,该研究利用LSTM网络模拟加拿大COVID-19传播的趋势,以便通过构建COVID-19的全自动实时预测模型来帮助公共卫生决策者和医疗保健工作者[18]。此外,Kırbas et al.(2020)在他们的文章中讨论了使用三种方法预 测 几 个 欧 洲 国 家 的 COVID-19 新 病 例 , 即 自 回 归 综 合 移 动 平 均( ARIMA ) , 非 线 性 自 回 归 神 经 网 络 ( NARNN ) 和 长 短 期 记 忆(LSTM)[19]。有趣的是,Kırbas Kürbas及其同事发现LSTM模型是最准确的模型。在沙特阿拉伯,使用LSTM的深度学习模型也被用于预测该国的COVID-19趋势[20]。还比较与 预测 获得 通过 Arima 和 非线性自回归人工神经网络(NARANN)。与NARANN和ARIMA模型相比,LSTM模型在预测未来一周的COVID-19病例总数方面显示出更好的准确性[20]。1.4. 研究的理由和目的使用基于人工智能的方法预测COVID-19的预测是疫情危机的一个标志。全球不同国家的公共卫生当局实施了各种缓解策略,这些措施的强度、持续时间和应用可能有所不同。因此,基于人工智能的COVID-19预测模型是一项具有挑战性的任务,特别是在疫情爆发的早期阶段,没有足够的数据可以找到。我们目前的研究旨在使用疫情危机早期公开的官方COVID-19数据作为训练数据集,使用基于人工智能的RNN预测COVID-19大流行的可能结果(新病例的流行曲线),并进一步,L.R. Kolozsva'ri等医学信息学解锁25(2021)1006913图二. 训练数据集。每100.000名居民的平均每日新感染人数(线)和数据集数量(线)。将预测与观察到的数据进行比较。本研究所提出的模型已被应用于预测六个国家的第一和第二波大流行的2. 材料和方法2.1. 数据我们使用来自世界卫生组织和约翰霍普金斯大学的公开数据集为以下国家创建训练数据集:奥地利,比利时,中国(湖北),捷克共和国,法国,德国,匈牙利,伊朗,意大利,荷兰,挪威,葡萄牙,斯洛文尼亚,西班牙,瑞士,英国(UK)和美利坚合众国(USA)[7,21]。鉴于中国大部分感染者来自湖北省,因此仅纳入该省的数据。对于每个国家,将首次报告感染的日期设定为疾病时间表的第1 (图 ①的人)。在确定第一次发病(第一个确定的病例)的日期时,忽略了点源暴发(例如,已核实的单个病例已被隔离,且未发生进一步传播的病例)。这对于避免传播的流行病曲线的扭曲是很重要的。例如,在比利时,第一次发病发生在2020年2月2日,长达26天没有进一步的病例报告。下一次发病发生在2020年3月1日。从2月份开始,包含早期的案例将有助于人工智能的错误学习规则,从而破坏结果。至于湖北省,第一个官方数据是在2020年1月22日。这不能被认为是疾病的第一天,因此首次感染被任意定义为发生在2020年1月1日。为了解释报告的每日新发病例的极端变异性(可能反映了报告程序的延迟),对湖北数据集使用了移动平均值(涵盖3天)。因此,获得了每个国家的流行曲线,时间序列,其中第一天表示第一个确诊病例的日期,随后的每一天表示当天新确诊病例的数量。为了说明各国在人口规模方面的差异,将每日新发病例数标准化为每个国家有10万居民鉴于疾病在各国开始后所经过的时间不同,观察期因国家而异因此,最长的时间序列涵盖90天的观察期。例如,在一个实施例中,在湖北,前22天缺乏有效数据,后68天有数据。斯洛文尼亚的观察期最短,只有30天。训练数据集是通过对17个国家每10万居民的每日发病率进行平均来获得的,时间序列中的每一天。计算平均值时,缺失数据留空,即,NULL,例如,计算平均数时不包括没有具体日期的图三. 不同国家的观察数据集, 二 大流行浪潮表1第一天第二波浪潮的国家Day 1法国2020.09.13德国2020.10.23意大利2020.10.13西班牙2020.09.13匈牙利2020.10.13中国2020.09.13美国2020.10.13得到的训练数据集如图2所示。值得注意的是,数据集的第一部分(截至疫情第一天起的最初30天)包含了几乎所有列出的国家的数据,而数据集的最后部分仅包含湖北的数据(图1)。 2)的情况。为了更准确地测试我们的模型,我们还检查了第二波为了获得更准确的第二波结果,我们创建了一个互连的神经网络模型,其第一部分是在第一波数据上训练的基础RNN。扩展模型的第二部分是在第二波数据集上训练的神经网络组件。所研究的每个国家的第二波数据包括85天。其中,前60天用于再训练,接下来的25天用于预测。第二波中每个国家使用的训练数据集见图3。不过,对于每个国家来说,大流行的进程是不同的,因此第二波的第一天是由国家决定的。各国第二波的第一天情况见表1。2.2. 基于RNN的预测时间序列分析的最新技术是基于AI的分析工具,具有最佳的预测性能。递归神经网络(RNN)是专门设计来处理顺序输入,文本或时间数据的特征。该架构是基于神经网络的架构,其包含根据时间步链接的隐藏层,具有预测下一个序列元素的可能性。时间序列具有特殊的时间形式,其中第i个隐藏层的输入位于具有对应x(i)观测值的第i个时间步。在其原始形式中,一个简单的RNN试图预测下一个序列元素,然而,为了当前分析的目的,编码器-解码器变体是一个更自然的选择,类似于机器翻译[22]。对于我们的特定场景,这意味着在编码器阶段,包括时间步1,...,t,向RNN馈送已知的时间序列数据(分别针对第1.t天归一化为100000居民的新病例的数量的平均值),随后在解码器阶段中预测未来的时间步t + 1,...,T。在我们的分析中,T= t +1 = 90天是已知的(湖北)最长时间间隔。 由于这L.R. Kolozsva'ri等医学信息学解锁25(2021)1006914++·+见图4。 用于预测的递归神经网络(RNN)架构。覆盖了相当长的数据序列,我们使用了门控循环单元(即长短期记忆图4描绘了我们的RNN架构,展示了如何预测未知的时间序列元素。图4还示出了如何将在前t个时间步中收集的信息与全连接(密集)神经网络层和结果回归输出层聚合,以将新患者的预测数量确定为X(t 1)。我们采用自己的方法来设计架构,并根据问题建立编码器-解码器流程网络的构建从序列层开始,然后是图1所示的LSTM块。 4,其具有用于先前状态的存储器能力。通过这种反馈过程,预测可以更接近真实情况。将Dropout层添加到网络的LSTM层中以控制过拟合。Dropout是一种正则化方法,其中在训练网络时,将输入和LSTM单元的递归连接从激活和权重更新中概率性地排除它具有减少过拟合和提高模型性能的效果。我们通过逐渐将epoch数量从50增加到300来进行实验。最好的结果是在150个时期之后获得的。在后来的时代,机器能力和准确性得分都不一致。为了节省训练时间,我们在训练过程中实现了小批量梯度下降,我们使用的批量大小为8。为了优化训练过程,我们利用ADAM优化器,将学习率设置为1 e-4,并在随后的每个时期将其降低1 e-6。至于调整我们神经模型的超参数(LSTM层的数量和组件,辍学概率,优化器,小批量大小,学习率),我们应用了贝叶斯算法,该算法非常适合优化分类和回归模型的超参数。在评估结果的过程中,我们使用了这个经过训练的基本模型,但对于每个国家,基本模型的状态都是在该国训练数据集的帮助下更新的。在预测第二波时,我们有更多的元数据可用,例如病毒复制率,死亡率数据,表明政府限制程度的数字。将这些额外的功能添加到系统中,我们开发了一种解决方案,可以更好地考虑预测中的情况,因此我们可以更准确地预测每天的新病例数量。对于第二波预测,我们创建了一个互连的神经网络模型,其第一部分是在第一波数据上训练的基础RNN。扩展模型的第二部分是在第二波数据集上训练的神经网络组件,并使用上述元数据进行增强。在这两个组件在训练后连接起来之后,它们经历了状态更新,其中包括关于要预测的特定国家数据的再训练步骤。连接模型的本质是,对于给定的国家,两个子网络的状态同时更新,最后的判决作为两个网络的输出的加权和而达到。这些权重参数也被嵌入在互连的神经架构中,从而在训练过程中自动调整。为了评估这些国家可能的特殊性,使用了以下两种方法进行预测预测1:制定了更新训练步长和后续预测的算法。该更新步骤基于迁移学习的一般建议,该建议考虑给定国家的已知时间间隔,并相应地以RNN网络的小增量进行重新训练[22]。 因此,我们从已知数据的最后5%开始预测第一个未知元素X(t 1),并且将相同的原理应用于每个后续元素。此外,在每个预测步骤之后,我们的RNN架构都被重新训练,随后的元素都被更新的RNN预测。预测2:我们从最后一个已知的x(t)开始预测第一个未知元素X(t1),并且所有后续元素仅从前面的元素预测。这里使用的是从训练数据集中描述的规则,而不是重新训练。预测1和预测2之间的差异的直观解释如下。预测2利用从训练数据集导出的信息进行预测,反映平均时间序列中的趋势。因此,这些预测将主要符合湖北的时间序列,特别是在遥远的未来。因此,如果缓解疫情的方法与湖北相似,预测2显示出对特定国家未来情景的最高保真度。因此,鉴于湖北的做法在该国得到遵循,这种情况也反映了该国特定的未来状况。另一方面,预测1是在神经网络在任何预测后重新训练后产生的,如果国家继续在观察期内采取减缓措施,则可以更有效地了解预期情况。这种直觉也可以用于评估第二波大流行,因为在这种情况下,预测架构包括在第一波期间训练的神经网络。2.3. 验证对于学习数据集,我们使用了第一波大流行的数据。也就是说,我们采用了从一个国家报告的第一例病例到2020年4月10日的可用事实数据。在此基础上,我们做出了上述两个预测(1和2)。此外,在验证过程中,我们使用了第一波的实际数据。按国家划分,我们考虑了从报告首例病例起的85-90天。因此,·L.R. Kolozsva'ri等医学信息学解锁25(2021)1006915n图五. 法国在第一波大流行期间的观察和预测。右上角的小图显示了为预测计算的每日误差值(RMSLE)。预测的天数因国家而异,与学习数据集的方式相同使用均方根对数误差(RMSLE)的量进行验证。在我们的分析中,使用RMSLE解释了观察值和预测值之间不同比率的可能偏倚设n为用于验证的天数。设p_1i和p_2i为在检查的时间间隔内使用两种预测方法获得的每天新病例数,设a_i为给定日期的实际数据。Err1和Err2将分别是预测1和预测2的RMSLE,其中:工作一个或没有。与我们的模型相反,既不包括武汉的数据,也不使用其他限制措施的元数据。第一周的模型预测显示出与我们的模型相似的准确性,但在更长的时间内,我们的方法更接近真实的行为[23]。此外,Bhimala等人(2021)[24]使用基于LSTM的模型来预测印度的疫情。作者们正在寻找天气条件和病毒传播之间的关系,因此他们添加了额外的元数据,如温度和湿度。基本模型 已经发现,基本的LSTM模型给出了良好的Err√̅1̅̅̅̅∑̅n̅̅̅̅̅̅̅l̅o̅g̅p̅̅̅ ̅1̅l̅o̅g̅a̅ ̅1̅2̅仅对于1-2天的预报具有相对小的误差的估计1=n(i=1(1i+)-(i+))而 当 天气 数据 是 包括在内, 的 预测可靠性在每周的时间尺度上有显著改善我们没有包括Err√̅1̅̅̅̅∑̅n̅̅̅̅̅̅̅l̅o̅g̅p̅̅̅ ̅1̅l̅o̅g̅a̅ ̅1̅2̅天气数据在我们的模型的训练,因为我们已经发现,2=n(i=1(2i+)-(i+))欧洲国家的这一信息并不那么相关。但经过包括 其他 元数据 (e.g.、 死亡率 费率, 病毒 传播率,我们还计算了均方根误差(RMSE)和平均绝对百分比误差(MAPE),如下所示:量化 数据 从 政府 限制), 我们 模型 也与第一波开发的模型相比有了显著改善。然而,仅仅对这些问题进行小的修改是不够的,RMSE√̅1̅̅̅̅∑̅n̅̅̅̅̅̅̅p̅̅̅̅̅̅̅̅̅̅̅a̅2̅Bhimala等人的模型架构。的研究,因为它仍然存在1=ni=1(1i-i)不能解决长期预测的问题 所以我们重新设计了我们的模型,使其包含多个子网,这样我们就可以RMSE√̅1̅̅̅̅∑̅n̅̅̅̅̅̅̅p̅̅̅̅̅̅̅̅̅̅̅a̅2̅通过实现足够的长期预测,2=ni=1(2i-i)多样性此外,在Kafieh等人(2021)[25]中,主要目标是MAPE100∑p1i-ai预测在九个国家爆发疫情-伊朗,德国,意大利,日本,1=ni=1a我⃒n韩国、瑞士、西班牙、中国和美利坚合众国2020年1月22日至7月30日的数据用于培训,2020年8月1日至31日使用多变量LSTM模型MAPE100∑p2i-ai2=ni=1a我⃒通过考虑每个类别中出现的次数进行预测(确认/提前/治愈)作为输入,并预测下一个时间步长的所有三个时间序列的值(多输入多输出2.4. 与其他型号的在Luo等人(2021)中,在美国COVID-19数据上比较了简单的LSTM模型和XGBoost算法[23]。训练集包含2020年4月至2020年9月之间的数据,而预测则为30天。结果表明,预测的新增病例数与前一周的病例数具有较高的相关性。该模型使用的关键特征是过去7天每天新增确诊病例的平均数和数量。此外,星期几也是模型的主要贡献者。这表明,新确诊病例的数量与特定日期是否为(MIMO)格式)。尽管在测试数据集上获得了良好的结果,但随后几个月的预测流行曲线的行为与实际趋势严重偏离。具体来说,平滑曲线是模型输出,这对于试图从不完整的学习数据集进行长期预测的LSTM模型来说是典型的我们在工作中也经历过这种现象,因此我们结合了几个模型并注入了额外的特征来克服它。通过这种方式,我们已经达到了更真实的行为。L.R. Kolozsva'ri等医学信息学解锁25(2021)1006916见图6。法国在第二波大流行期间的观察和预测。右上角的小图显示了为预测计算的每日误差值(RMSLE)。见图7。德国在第一波大流行期间的观察和预测。右上角的小图显示了为预测计算的每日误差值(RMSLE)。3. 结果本节显示了法国、德国、匈牙利、意大利、西班牙、英国和美利坚合众国的国家层面数据的预测1和预测2的结果(图1和图2)。5-18)。在每个图表中,第一天代表每个国家的第一个疾病/病例。黄线代表从第一次发病/病例开始的第一波85-91天的实际数据。对于每个国家,学习数据库由截至2020年4月10日的可用数据提供。蓝线和绿线表示每个国家通过两种预测方法获得的值。蓝线显示预测1,绿线显示预测2。对于每个主图,右上角的小图4. 讨论2019冠状病毒病大流行影响了大多数生活领域,包括医疗服务提供、经济、政治、教育和社会生活[26此外,这一流行病揭示了各国在备灾和危机管理方面面临的挑战因此,这场全球危机为人工智能在抗击和应对传染病的各个方面的更有效和更高效的应用开辟了道路,这将有助于各当局更好地准备应对基于人工智能模型的疾病传播的预测影响。在COVID-19爆发的早期阶段,关于SARS-CoV-2的性质和传播性的数据很少,建模研究试图预测流行病的结果包含为预测计算的每日误差值越使用 的 易感-EX阳性-感染-阴性 (SEIR) 模型,预测越准确,RMSLE误差越小应该注意的是,如果误差函数平行于x轴,这意味着预测的趋势与真实趋势相同,只是在更低或更高的尺度上。此外,表2和表3还显示了各国的总均方根误差(RMSE)、均方根对数误差(RMSLE)和平均绝对百分比误差(MAPE)。根据中国武汉的数据;爆发的起点[31]。此外,预测及预测COVID-19的发展轨迹并不是人工智能在当前疫情期间的唯一应用AI已被用于接触者追踪、公共卫生行为追踪,目前还用于COVID-19病例检测和疫苗接种[32此外,各种基于人工智能的方法已在文献中报道,并用于预测COVID-19的结果。比如说L.R. Kolozsva'ri等医学信息学解锁25(2021)1006917见图8。德国在第二波大流行期间的观察和预测。右上角的小图显示了为预测计算的每日误差值(RMSLE)。见图9。匈牙利在第一波大流行期间的观察和预测。右上角的小图显示了为预测计算的每日误差值(RMSLE)。用于预测中国确诊病例的自适应神经模糊推理系统混合模型(ANFIS)[35],以及用于建模时间序列的改进型自动编码器,用于对COVID-19的传播动态进行建模并评估干预措施[36]。自2020年3月起,我们有机会在本研究中使用COVID-19每日新增病例的申报数量来预测我们的模型,并将预测轨迹与观察数据进行比较。我们提出的模型可以考虑用于描述与大流行开始时类似的大多数情况下的曲线(对病毒的知识缺乏,追踪病例的能力有限,分子测试可用但可加工率低,严格封锁作为主要对策)。为了更好地评估我们的模型在进一步大流行阶段的适用性,在第一波大流行和第二波大流行期间,我们还报告了六个国家的COVID-19新病例的预测轨迹。在第一波大流行期间,我们可以在模型中注意到,预测1对某些国家(匈牙利,意大利,英国,美国)更准确,而预测2对其他国家(法国,德国,西班牙)更准确在那些严格的措施(例如,严格封锁),例如,法国,匈牙利,意大利和西班牙,预测模型和观测数据非常相似,准确性更高,然而,英国和美国的情况并非如此。这背后的原因可能与学习数据集主要基于湖北省的数据有关,与英国和美国不同,湖北省实施了严格的全面封锁。另外.这可能是因为这些反措施与武汉以及随后的欧洲所采用的措施不同,也可能是因为在一开始,没有可用的测试(或测试费用太高)。这证实了我们提出的模型在特定条件/背景下更好地工作的假设。另一方面,在法国、匈牙利、意大利和西班牙,使用预测1和预测2模型预测第二次大流行波,显示出两种预测模型的趋势非常相似。然而,预测模型似乎与英国和美国的数据不太匹配。这可能是由上述第一波大流行期间解释的相同原因引起的,也可能是受病毒新变体(突变)出现的影响[10]。我们的研究结果强调,COVID-19大流行是L.R. Kolozsva'ri等医学信息学解锁25(2021)1006918见图10。 匈牙利在第二波大流行期间的观察和预测。右上角的小图显示了为预测计算的每日误差值(RMSLE)。见图11。意大利在第一波大流行期间的观察和预测。右上角的小图显示了为预测计算的每日误差值(RMSLE)。传播源爆发,因此预计流行曲线会出现反复的峰值(每日新诊断感染人数上升)。使用基于人工智能的RNN进行的预测进一步暗示,尽管大多数被调查的国家接近或超过曲线的峰值,但它们应该为不久的将来一系列连续的高峰做好准备,直到所有易感人群都被SARS-CoV-2感染,或者采取有效的预防措施(例如, 疫苗接种)或治疗选择将变得可用并得到有效利用。 这些情形类似于其它已知的传播源epi- demics,例如,SARS和麻疹[37]。尽管抑制和缓解措施可以降低感染发生率,但鉴于COVID-19疾病的平均R 0值为3.28,其传播率相对较高,很可能会继续传播[38]。 因此,必须采取公共卫生措施,因为病毒的潜伏期可能很长(1-14天,但有些人认为可能是21天),在此期间可能会出现无症状或症状前的传播。此外,目前尚不确定那些被诊断为COVID-19感染的人是否会获得足够的免疫力[5]。最后,来自气候温暖的国家的数据表明,夏天不太为了阻止大流行,因为病毒已经在澳大利亚和南非蔓延[7,9]。这就是为什么再次出现另一个高峰的可能性很大,而大流行的结束目前还不能准确然而,最近的出版物表明,越早进行缓解尝试(例如,关闭边境、关闭学校、封锁全国、宵禁),更有效的是减少疫情的传播[9]。事实上,分析有关COVID-19的抑制策略的影响,结果表明,早期实施抑制措施(每周每10万人死亡0.2人)可以挽救3070万人的生命,而晚期实施这些措施(每周每10万人死亡1.6人)则可以挽救3070万人的生命[39]。这似乎是在国家的情况下,有关于冠状病毒感染的先验知识(例如,中国、新加坡、香港),因为它们更有准备实施公共卫生措施,并有更多的设备和卫生保健人员到位,以减轻感染的传播。那些未能及时执行有效和严格的减缓政策的国家正面临困难,在控制疾病传播方面,意大利、英国和美国的情况也是如此[38]。有一些新的研究数据表明,L.R. Kolozsva'ri等医学信息学解锁25(2021)1006919见图12。意大利在第二波大流行期间的观察和预测。右上角的小图显示了为预测计算的每日误差值(RMSLE)。图十三. 西班牙在第一波大流行期间的观察和预测。右上角的小图显示了为预测计算的每日误差值(RMSLE)。封锁措施不如对人群进行疫苗接种有效,但需要更多的调查和时间来建立[40]。据我们所知,我们的研究是在第一波大流行的早期使用基于AI的递归神经网络对新诊断感染的预测演变进行建模的稀缺文献之一。到我们对第一波疫情进行研究之日为止,大多数研究都预计疫情曲线会出现一个峰值,但有些研究担心,在停止缓解-抑制措施时,未来会出现峰值。根据我们的模型,如果持续采取严格措施,这种情况甚至可能发生然而,我们的研究也存在一些局限性。由于SARS-COV-2的性质相对未知或动态,并且易于突变,因此预测大流行的传播并非易事。由于缺乏可靠的数据,影响每日报告新病例的因素,例如报告效率、公共卫生措施的不同质量和时间、国家特定的年龄金字塔和人口的慢性病负担,没有包括在我们的训练数据集中。我们没有调查死亡和康复的人数,因为我们当时(在早期)大流行的阶段)。同样,关于每个国家进行的诊断测试或死亡率的数据被省略,因为它们受到国家经济福利,卫生保健系统,设施和能力以及其他因素的高度影响 有许多不可预见的不确定性和巧合无法在我们的模型中实现,例如,有几天,大量的人在一天内被诊断出患有COVID-19(例如在法国或匈牙利的护理院),这导致每日新病例数量大幅增加[38]。接种COVID-19疫苗的效果似乎是突破性的,但这需要更长时间的证明,因为疫苗的推出仅在2020年底才开始[40,43]。5. 结论我们提出的方法提供了一个更现实的预测在一个较长的时期。通过优化经典的递归神经网络模型,添加额外的功能,并将迁移学习与互连子网络的复杂架构相结合,我们可以L.R. Kolozsva'ri等医学信息学解锁25(2021)10069110图14. 西班牙在第二波大流行期间的观察和预测。右上角的小图显示了为预测计算的每日误差值(RMSLE)。图15. 英国在第一波大流行期间的观测和预测。右上角的小图显示了为预测计算的每日误差值(RMSLE)根据几周的疫情数据,以良好的近似精度预测给定流行病波的整个流行曲线。然而,不同病毒突变的出现也改变了流行曲线的行为,所提出的神经网络模型还没有完全准备好。这是因为训练数据集的行为强烈影响预测行为。我们的计划包括改进我们模型的这个缺点。由于描述流行病传播的数学模型的参数很容易更新,我们可以使用不同的数学方法(例如,SEIR)通过考虑多个突变的发生来模拟流行病传播过程。然后,这些模拟的输出被用作训练数据集,以进一步开发神经网络模型。验证过程将基于目前可用的COVID-19病毒变体的影响(例如,英国或印度的突变)。因此,未来的总体目标是开发一个更灵活的预测模型。这一全球流行病的影响已经深入到每个人的日常行为中,政府和决策者仍面临着不可预见的挑战。从这一点出发,每个人,特别是决策者必须意识到,目前的情况可能只是一个开始,即使严格的公共卫生,如果不执行和维持这些措施,未来的感染高峰是可能的。我们的研究结果强调,COVID-19大流行是一种传播源流行病,因此预计每日新诊断感染人数将出现反复上升的高峰。在实施严格控制措施的国家,预测模型与观测数据非常相似。基于人工智能的预测可能是有用的工具,可以根据新观察到的数据重新计算,以获得更准确的大流行预测,同时考虑到病毒的新变种和可用疫苗接种可能性的影响。基于人工智能的预测,包括对病毒和预防的更广泛了解,预计将为公共卫生从业人员和决策者提供足够的数据,这将有助于改善各国作者贡献概念化,LRK,TB,JZ,AH;方法学,所有合著者讨论了方法学;数据管理:AH,ABA,TB,AT,IV领导数据管理和形式分析; TB,ABA和GJS进行数据提取和更新。基于AI的分析和验证是L.R. Kolozsva'ri等医学信息学解锁25(2021)10069111图16. 英国在第二波大流行期间的观察和预测。右上角的小图显示了为预测计算的每日误差值(RMSLE)图17. 美国在第一波大流行期间的观察和预测。右上角的小图显示了为预测计算的每日误差值(RMSLE)由AT、TB、IV、AH制造。 由AT、TB、IV、GJS、AH、ABA和LRK进行可视化。编辑-原创草稿准备,所有作者;编辑-审查和编辑,所有作者;资金获取,JZ和AH。通过LRK、ABA、AH、SH、GJS、SG、JZ、RG进行文献检索。所有共同作者密切合作,对文献、方法和结果进行了解释和审查。所有作者都已阅读并同意提交的手稿版本。资金本研究由欧盟支持,欧洲社会基金和欧洲区域发展基金共同资助[批准号EFOP-3.6.1-16-2016-00022德布勒森创业弹射器计划(为SH、LRK提供支持),欧盟[EFOP-3.6.2- 16-2017-00009建立临床研究主题科学与合作网络(为RG提供支持),匈牙利科学院Janos Bolyai研究奖学金(为JZ提供支持),匈牙利脑研究计划2.0,授权编号2017-2019-0028(为LRK、TB、AT提供支持该研究也得到了UNKP-19-3-I的支持。创新和技术部新的国家卓越计划(为AT提供支持该研究部分得到了欧盟支持的EFOP-3.6.2-16-2017- 00015项目的支持,该项目由欧洲社会基金共同资助这项工作也得到了EFOP- 3.6.3-VEKOP-16-2017-00002项目的部分支持资助者在手稿的撰写或提交出版的决定中没有任何作用,不参与数据收集,分析或解释;试验设计;患者招募;或与研究相关的任何方面机构审查委员会声明不适用因L.R. Kolozsva'ri等医学信息学解锁25(2021)10069112图18. 美国在第二波大流行期间的观察和预测。右上角的小图显示了为预测计算的每日误差值(RMSLE)表2第一波的总均方根误差(RMSE)、均方根对数误差(RMSLE)和平均绝对百分比误差(MAPE)。国家预测的RMSE 1预测的RMSE 2预测的RMSLE平均值1预测的RMSLE平均值2预测的MAPE 1预测的MAPE 2匈牙利0. 31 0. 42 0. 06 0. 107 51. 9 66. 5表3第二波的总均方根误差(RMSE)、均方根对数误差(RMSLE)和平均绝对百分比误差(MAPE)预测的RMSE 1预测的RMSE 2预测的RMSLE平均值1预测的RMSLE平均值2预测的MAPE 1预测的MAPE 2匈牙利597.47640.4624.94 25.62英国897.021511.890.1170.31122.3450.87意大利216.641620.0330.0247.245.65西班牙488.98467.480.070.06417.0515.24德国349.79409.150.0570.06413.0713.45法国698.1621.620.0940.08123.1819.32美国1216.213188.180.0880.30818.1350.11知情同意声明不适用因数据可用性声明所有数据来源都是公开的,并在方法部分进行了描述和引用。发表同意书不适用因竞合利益作者声明,他们没有已知的可能影响本文所报告工作致谢作者感谢世界卫生组织和约翰霍普金斯大学提供的公开数据。引用[1] Rabi FA,Al Zoubi MS,Al-Nasser AD,Kasasbeh GA,Salameh DM. SARS冠状病毒2和冠状病毒疾病2019:我们迄今所知道的病原体2020;9:231. 网址:http://doi.org/10.3390/pathogens9030231[2] Al-Tammemi AB.约旦抗击COVID-19的战斗:约旦经验的早期概述。公共卫生2020;8:188。https://doi.org/10.3389/fpubh.2020.00188.[3] Zhou P,Yang X-L,Wang X-G,Hu B,Zhang L,Zhang W,et al. A pneumoniaoutbreak associated with a new coronavirus of
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IA-Volume 1 Basic Architecture.pdf
- S7-200自编PID程序(没有使用其自带的PID指令)
- PThreads Primer
- Haskell Monads
- 基于S3C2410的Linux全线移植文档.pdf
- scjp 6 demo2
- 如何写正则表达式,正则表达式常用实例
- SCJP 6 question demo
- 深入浅出ARM7-LPC213x_214x(下)
- MATLAB常用命令集
- clementine的中文教程
- 基于I2C总线的键盘显示模块设计
- 深入浅出ARM7-LPC213x_214x(上)
- nanonanonanonanonanonano
- 轻轻松松学JavaScript
- ASP.NET学习笔记(我们一起学习ASP.NET)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功