2020新冠疫情传播动态的神经网络预测调查

21 浏览量更新于2024-01-06 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁20（2020）100386基于神经网络的COVID-19传播动力学的相似映射和成对预测皮托约·哈尔托诺日本名古屋中京大学Yagotohonmachi 101-2A R T I C L EI N FO保留字：COVID-19传动动力学神经网络长短期记忆时间序列预测A B S T R A C T于二零二零年三月十一日，世界卫生组织宣布COVID-19为大流行病。自那时以来，许多国家经历了这种呼吸道疾病在其人口中的迅速传播，并采取了许多战略来减缓这种疾病的传播。预测的传输动态服务的重要作用，在设计缓解策略。然而，由于这种疾病的未知特性，以及地理和政治因素，许多国家很难建立有效的动态模型。本研究的目的是开发一个传播动态预测器，利用许多国家之间的时间差异，就这种疾病的传播，因为一些国家经历了比其他国家更早的爆发。所提出的方法的主要新颖之处在于，与许多现有的传播预测因子不同，这些预测因子需要基于过去病毒流行病学的先验知识的参数，所提出的方法只需要这种当前疾病的公开数据中国家之间的传播相似性。在本文中，所提出的方法的可行性和局限性的报告和讨论。1. 介绍2019年底，中国报告了一些不明原因的肺炎病例，并迅速成为疫情[1]。2020年1月30日，世界卫生组织（WHO）宣布疫情为国际关注的突发公共卫生事件，2020年2月11日，冠状病毒病的名称被宣布为COVID-19。3月11日，由新型冠状病毒SARS-CoV-2引起的人类呼吸道疾病COVID-19被世界卫生组织宣布为大流行病，截至当日，114个国家的病例超过10万例。截至4月19日本报截稿日，累计案例累计超过240万例由于长期大流行的可能性迫在眉睫[2]，迫切需要了解这种疾病的传播动态，以便预测各地区未来的病例，并相应地设计缓解策略。这次疫情的数据已经汇编并提供给研究团体[3有丰富的数据收集研究传染病通过人群传播。例如[6，7]和[8]是已经成为房室模型SIR模型是目前比较常用的模型。SIR模型将种群划分为易感（S）、感染（I）、恢复或清除（R）三个区室，并用一系列常微分方程表示种群的动态，其解析解在参考文献[9]中有解释。对基本SIR模型的修改也已提出，例如，SEIR模型，其中一个额外的隔间，即暴露（E），被添加到SIR模型[10在目前的疫情爆发之后，已经提出了一些新的疾病传播动力学模型[14政府干预的有效性与传播动态之间的相关性分析也已提供[18]。人工智能社区已经开始着手处理COVID-19危机的许多方面，有效审查在参考文献[19]。建议的工作利用一个新的神经网络的传输动态映射，并进一步使用它来预测未来的情况下，在许多国家。所提出的方法利用了不同国家爆发疫情的时间差异，因为一些国家或地区比其他国家或地区更早观察到疫情。然而，虽然许多国家的传播动态可能开始于不同的时间，但它们往往有相似之处。在这项初步研究中，最近提出的拓扑神经电子邮件地址：hartono@sist.chukyo-u.ac.jp。https://doi.org/10.1016/j.imu.2020.100386接收日期：2020年4月25日;接收日期：2020年6月25日;接受日期：2020年在线预订2020年2352-9148/©2020的作者所有发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imuP. Hartono医学信息学解锁20（2020）1003862网络，命名为拓扑自动编码器（TA）[20]，用于映射250多个国家和地区的传输动态。考虑到许多国家确诊病例的时间序列作为输入，TA产生了一个二维的，因此可见的地图，该地图投影了这些动态的拓扑结构，因为相似的动态相邻，而不相似的动态在地图上被大空间分隔开。通过设置要预测的目标国家，然后可以使用该地图来定位具有较早开始的类似动态的参考国家，并且可以使用参考动态来训练神经网络预测器，即长短期记忆（LSTM）[21，22]，这是一种已知在建模时间序列方面表现强劲的深度递归神经网络。由于缺乏这种疾病的传播动力学的先验知识以及可用时间序列数据的相对较短的周期，使用类似但较长的动力学来预测目标动力学可能是有效的。在参考文献[23，24]中，LSTM也被应用于预测这种疾病的传播动力学，尽管它们与所提出的工作有显著不同，因为先前研究中的LSTM没有以成对的方式使用。在本文中，这种成对预测方法的效率和局限性进行了实证评估。本文件的结构如下。第2节解释了数学-在COVID背景下拓扑自动编码器的数学概念19传输动态数据。第3节解释了实验，其中的初始特性的的拓扑传输动力学图的详细解释，而在后一部分，成对预测的解释。结论见最后一节。2. 拓扑自动编码器拓扑自动编码器（TA）的轮廓与传输动态的短期预测框架如图1所示。TA是具有低维拓扑隐藏层的分层神经网络，其是参考文献中提出的软监督拓扑自动编码器（STA）的简化版本。[20]，其中的基本数学性质在参考文献[25]中提出。最初，STA可以以监督的方式、非监督的方式或两者的混合来训练，并且产生二维拓扑图，该二维拓扑图允许人类用户不仅可视化高维数据的结构，而且可视化他们的给定概念。TA是STA的简化版本，因为它仅被训练为自动编码器，这是一种神经网络，其被训练以在其输出层中再现给定输入，从而在其隐藏层中编码输入的固有结构。这里的TA与传统的自动编码器的不同之处在于，它具有人类用户可以可视地观察到这里，TA的输入是COVID的传播动态-19为250多个国家或地区，其特点是Fig. 1. 拓扑自动编码器和短期预测框架TA使用250多个国家的传输动态进行训练。在学习过程中，一个低维的拓扑表示是组织在STA的隐藏层，从而在一个可显示的相似性地图。给定一个目标国家，选择一个具有相似但更长动态的国家来训练LSTM。然后，LSTM被用于目标国家的短期预测P. Hartono医学信息学解锁20（2020）1003863V1-xe.��Σ�ð Þ22σ2（N j;winkt1/4e-2t∞约翰霍普金斯大学[5]并在GitHub存储库中提供[4]。TA的隐藏层是一个二维拓扑图，类似于Kohonen然后，训练TA以在其然后，通过修改权重向量和参考向量，训练TA以使用标准随机梯度下降来最小化损失函数。连接权重导致第l输出神经元修改如下。Vlt1 Vlt-ηLt（6）输出层，因此预计将提取的固有结构，∂LðtÞ出来隐藏层的输入由于隐藏层是二维网格，因此可以可视化输入的提取结构。通过这种可视化，人类用户可以获得直观的Vl 第1007章：一夜情（7）我不知道。Olt-XkOlt1-Olt（8）关于许多国家传播动态之间的相似性和差异性的见解L l类似地，第j个参考向量的修改被修改为TA学习机制的数学解释如下∂LðtÞ这里，k国的传播动态，以该国自2020年1月22日以来记录的每日确诊病例为特征，Wjt1Wjt-ηWjt（9）对于d天，用Xk2 Rd表示。在时间t观察作为输入的X k，TA在所有的参考单元中选择最佳匹配单元，winkttj，win k t j，ref k t j，ref k t j，ref kt j，ref k tj。Xk-Wk（10）与TA的隐藏单元相关联的向量，如等式（1）中所（1）其中D∂WjðtÞjWjt 2R是与第j个隐藏单元相关联的参考向量，δ参考值±1XδoutvLJ（十一）时间t这里，Wwinkt成为输入j的内部表示时间t时的Xk。σ2LL第j个隐藏神经元在时间t的输出Hjt在等式中示出。其中，N是在等式（2）（三）、这里，N0>N∞>0是退火的初始值和最终值术语， t∞ 是的终止时间，而σ是一个经验定义常数��2在Eq.（6）Eq.在公式（9）中，η>0是经验设定的学习速率，而Vlj在方程中是将第l个神经元连接到隐藏层的权重向量Vl损失函数的推导和参考向量修改相对于SOM的差异的阐述在参考文献中详细解释。[20、25、28]。2.1. 实验.K-jjX-Wj在本节的前半部分.英国广播公司本章解释了电信局长制作的地图，而在后半部分，（三利用这些图来运行成对预测，评估和StN∞1N0-N∞1cosπtdist win kt;j poswin kt-posj 2（4）（4），posjR2是两个神经元中第j个三维隐藏层。该邻域函数确保了隐藏神经元激活的局部性，因为获胜神经元生成最大输出，而其他神经元的输出随着它们到隐藏层的二维网格上的获胜神经元的距离呈指数下降。第l个输出神经元的值Ok定义在等式中（5）其中fx1 .一、我不知道。Vl这里，V1表示从隐藏层通向第1层的权重向量。解释了所提出的成对预测的局限性2.2. COVID-19传播图2为2020年2月20日、3月6日、于二零二零年三月三十日及二零二零年四月十三日。可以确定的是，地图的外观随着时间的推移而变化，因为在2月20日，只有少数国家或地区观察到这种疾病在其人群中的传播，而近两个月后，4月13日，大多数国家或地区已经发展出其独特的传播动态。TA产生拓扑地图，将相似的动态投影到地图上的相邻区域，同时分离不同的动态。因此，给定一个要预测的目标国家，可以选择一些具有类似动态的国家进行成对预测，这将在本文的下一小节必须指出，这里的拓扑图是在th输出神经元和HtH1t;H2t;HNhidðtÞÞT 是隐藏的TA的学习过程，其中每个国家或地区的传输动态被视为高维向量，因此层输出向量，其中Nhid是隐藏神经元的数量，以及T表示换位。由于TA的目标是在输出层中重构输入，因此该神经网络的损失函数可以定义为等式2。（5）.L=1X.Olt-Xk2（5）TA在其二维拓扑隐藏层中降低它们的维数。这里，TA执行非线性降维过程，与传统的主成分分析（PCA）不同，在传统的主成分分析（PCA）中，降维是原始维度的线性组合，不能容易地解释维度。因此，没有单位被分配给地图中的轴，这对于赢了，赢了圣维P. Hartono医学信息学解锁20（2020）1003864L2ll非线性降维方法，如核PCA [29]，Isomap [30]，随机邻域嵌入（SNE）[31]及其这里，Xk是输入Xk的第l个分量。变体t-SNE [32]和最近提出的UMAP [33]。图中的拓扑图。 2a显示传动动态向上P. Hartono医学信息学解锁20（2020）1003865图二. 拓扑传播动态图这些图显示了从2020年1月22日到每个地图上指定日期收集的250多个国家或地区病例数的时间序列的拓扑传播动态图。这些地图显示了2020年2月20日至4月13日期间国家或地区之间传播动态直到2020年2月20日，中国境外发现的COVID-19病例很少。从这张地图上可以看出，很多国家或地区占据了地图的左上方区域。这种重叠是由于它们的动态，因为它们中的大多数在当时没有发现或发现很少的病例。此时，疫情的震中湖北已经是地图上的一个离群点，因为湖北的病例数量与其他地区相比，规模不一样。还可以观察到，美国、法国、韩国和许多亚洲国家或地区（如马来西亚、韩国、新加坡、泰国、台湾和香港）由于其相似的动态而处于相邻位置，而中国的许多从图 2b可以观察到地图的左上方区域仍然拥挤，但可以看到许多国家逃离了这个重叠区域。这是因为这些国家或区域开始形成不同的传播动态。值得注意的是，意大利和伊朗由于其暴发的开始而从拥挤的集群中大幅移动，而美国仍然分享空间，因此表现出与澳门相似的动态和台湾图2c中的拓扑图显示了3月30日之前的地图，当时美国和意大利已经发生了大规模疫情，这直接反映在地图上的位置上。截至4月13日，全球已观察到超过200万例确诊病例，美国成为这些疫情的中心。图2d所示的地图发展了一种新的结构，在这种结构上，病例数最多的美国和许多欧洲国家聚集在左边P. Hartono医学信息学解锁20（2020）1003866ðÞ在地图的底部区域，而湖北，最初的震中，因为缺乏其他类似的动态，已经扁平化的动态，占据了右上角。下文对地图的拓扑特征作了详细说明，目的是阐明各国动态与其在地图上的表述之间的联系。3月30日地图的解释图3显示了一些国家或地区截至3月30日的实际传播动态，这些国家或地区根据它们在图2c中所占的地区进行分组。如图3a所示，从左侧区域看，北京、浙江和梵蒂冈城表现出不同的动态，这反映在它们在地图上的大距离上。北京和浙江都控制了疫情，但动态和累计患者数量不同，而梵蒂冈的患者很少。在地图的中间，可以观察到日本、荷兰和瑞士各自具有相当不同的动态，如图3b所示。从地图的右侧看，湖北、美国和意大利如图3c所示。很明显，湖北已经稳定下来，而美国和意大利的患者人数却在急剧增长图4示出了变速器动态特性与其在地图上的表示之间的关系。在这里，特定国家或地区的特定动态的表示是该国家获胜神经元的参考向量。图4a表示北京、浙江和梵蒂冈的动态，图4b表示日本、荷兰和瑞士的动态，而图4c表示湖北、美国和意大利的动态。这里需要注意的是，不同的动态用不同的表示来表示，并且动态的相似性和相异性反映在地图上表示的位置中。为了进一步解释内部表征特征，韩国和英国的动态如图5b所示。这两个国家是故意选择的，因为它们的对比传输动态，这反映了他们在地图上的最大距离。韩国以在早期爆发后成功遏制这种疾病的传播而闻名，而英国在3月30日仍在挣扎。它们的内部表征如图5b所示，这清楚地表明了这两个国家之间的差异。相比之下，图6a显示了比利时和荷兰的类似动态，它们自然地相邻放置在图2c中的地图上。传动动力学的相似性反映在图1中的类似表示中。 6 b，以及他们在地图上的位置。通过这些初步示例，可以经验性地示出TA的隐藏表示能够捕获不同动态中的拓扑关系，并且因此可以用于选择具有类似动态的一对国家以如在图1中那样使用成对预测机制2.3. 短期成对预测在这一部分中，本文介绍了基于图上动力学相似性的两两预测。在这里，由于时间序列的相对较短的长度，仅解释了三天的短时间预测。然而，由于每天更新数据，因此可以在不改变所提出的方法的情况下执行预测时段的延长。对于短期预测，使用了1月22日至4月15日期间约250个国家或地区的每日确诊病例数。在这里，直到4月12日的确诊病例的时间序列被用来建立一个预测器，而其余三天的数据被用来测试预测器。在该方法中，给定要预测的目标国家，必须通过视觉观察TA生成的传输动态图来选择参考国家，该参考国家是具有类似动态但时间序列较长的另一个国家，如下所示。在这里，让X目标是目标国家的传播动态，其中ttarget是目标国家超过特定病例数阈值目标的时间。Y目标是一个截断的X目标，从t目标开始，到4月12日，时间序列的结束。设置的值为门限门限门限和找到ttarget，Yjj 6¼target; tj

下载后可阅读完整内容，剩余1页未读，立即下载