没有合适的资源?快使用搜索试试~ 我知道了~
阵列11(2021)100075大流行期间流动模式与COVID-19死亡之间的关联:网络结构和秩传播建模方法Furxhi Irinia,b,Arash Negahdari Kia b,*,Darren Shannonb,Tim Jannusch b,c,Finbarr Murphyb, a,巴里·希恩ba爱尔兰利默里克纽卡斯尔西Transgero有限公司b爱尔兰利默里克大学凯米商学院c保险研究所,TH,科隆,德国A R T I C L EI N FO保留字:COVID-19移动性报告个性化PageRank网络建模特征选择分层聚类A B S T R A C T背景:自2020年2月起,爱尔兰城市和农村都见证了COVID-19疾病在其各县的迅速扩散于此期间,国家COVID-19应对措施包括国家发布的居家指令,但执行程度不同方法:在本文中,我们提出了一种新的方法来评估和排名爱尔兰COVID-19死亡的原因,因为它与谷歌提供的每个县内的流动活动有关,同时考虑到每个县报告的流行病学确诊阳性病例。我们使用了网络结构和排名传播建模方法,使用个性化的PageRank来揭示与病例和死亡相关的每个移动类别的重要性。然后,一种新的特征选择方法,使用相对突出的因素,发现重要的功能相关的每个县的死亡。最后,我们使用一个定制的网络聚类算法的研究问题的网络结果选择的功能的基础上聚类的县。研究结果:我们的分析显示,与COVID-19病例和死亡相关性最强的最重要的流动趋势类别包括零售和娱乐以及工作场所。这是首次使用网络结构和秩传播建模方法将COVID-19数据与移动模式联系起来。网络结果所示的感染决定因素景观与县的社会经济和人口特征完全一致。新颖的特征选择和聚类方法为决策者、卫生部门管理者、政治家甚至社会学家提供了有用的聚类。最后,每个县对全国总数的影响不同。1. 介绍截至2021年1月16日,已有超过200万人死于严重急性呼吸道综合征冠状病毒2型(SARS-CoV- 2),即众所周知的COVID-19 [1]。这种新的传染病出现在武汉(中国湖北省),并于2019年12月首次发现不明原因的肺炎病例[2]。此后,该疾病在全球迅速蔓延,迫使世卫组织于2020年3月宣布COVID-19为全球大流行[3]。迄今为止,COVID-19已影响200多个国家和地区,西欧受到的影响尤为严重[1]。人口流动是促进疾病快速传播的关键因素之一[4,5]。每天有数百万人在并跨越国家、地区和城市。因此,地方和国家政府已实施非药物干预(NPI)作为减缓和预防COVID 19传播的策略[6Hale,Petherick等人[9]研究了政府对COVID-19的反应变化。典型的措施包括:居家令、旅行禁令、取消公共集会、关闭学校和其他干预措施,以遏制病毒的传播。除了这些单独措施外,中国和意大利是首批颁布全国性封锁措施以遏制感染曲线的国家之一[10]。根据Perumal,Curran等人的说法[11]; COVID-19于2020年2月17日首次在爱尔兰发现。一位从意大利北部返回的中年女士出现咳嗽等一般症状,随后出现出汗、发烧、恶心或胸痛。九天* 通讯作者。电子邮件地址:irini. transgero.eu,irini. ul.ie(法文)。 Irini),arash.kia @ ul.ie(A.N. 起亚),达伦。香农@ ul.ie(D。 Shannon),Tim. ul.ie(T.Jannusch),finbarr. ul.ie,finbarr. transgero.eu(F.墨菲),巴里。希恩@ ul.ie(B。Sheehan)。https://doi.org/10.1016/j.array.2021.100075接收日期:2021年2月9日;接收日期:2021年4月28日;接受日期:2021年2021年7月7日在线发布2590-0056/© 2021作者。爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表阵列期刊主页:www.sciencedirect.com/journal/arrayF. Irini等人阵列11(2021)1000752后来,2020年2月26日,检测到SARS-冠状病毒-2 RNA。此后,爱尔兰感染COVID-19的总人数增加至147,613人,2021年第一周每10万居民14天病例通报率超过1200人[12]。欧洲疾病预防和控制中心的最新数据显示,爱尔兰已有2300多人死于这种疾病。其中,80岁或以上的年龄组继续受到病毒的最严重影响[13]。在整个疫情期间,一个紧迫的问题是防止对卫生系统造成过度压力,并决定最佳的社会限制水平,以防止COVID-19的传播,同时保持高水平的社会效用。使用机器学习方法对COVID 19数据集进行快速干预对于降低传播速度非常重要[14]。 为此,这项研究增加了目前的辩论,并提供了一个更好的了解流动模式的变化和流行病学确诊的COVID-19病例与死亡总数之间的相互关系每个县加上确诊的COVID-19病例和我们分析了谷歌COVID-19移动报告(GCMR)提供的公开地理定位智能手机数据。 这些数据可用于比较大流行前(基线)和大流行期间的活动,通过推断个人访问的地点,更好地了解流动模式。GCMR的一个特别优势是Android操作系统在智能手机用户中拥有超过57%的市场份额,是爱尔兰最大的市场份额[15]。出于这个原因,所提供的数据可能比任何其他提供商捕获更多个人2. 文献综述谷歌社区移动数据此前已被用于许多其他研究[16Huynh [18]通过将Google数据与文化因素联系起来,研究了文化维度在世界各地实施社交距离中的作用。塔马古斯科和费雷拉[21]使用谷歌数据了解葡萄牙人口已 经 在 COVID-19 数 据 上 利 用 了 各 种 算 法 , 例 如 支 持 向 量 机(SVM)、随机森林(RF)、k最近邻(kNN)、神经网络(NN)、决策树(DT)。这些工具已被用于预测各种COVID-19结果,例如确诊的阳性病例数量[23],以及药物开发,假新闻预测和疫苗发现[24]。Bryant和Elofsson [16,17]建立了一个贝叶斯模型,根据移动模式变化导致的基本生殖数(R0)的变化来估计给定日期的死亡人数。然而,尽管Bryant和Elofsson [16,17]计算了11个国家每个类别的重要性,但在本研究中,我们确定了一个国家的县内流动性因素的重要性。 此外,Ilin,Annan-Phan等人[19]表明,谷歌,Facebook和其他提供商提供的数据可用于评估非药物干预措施的有效性,并通过使用统计模型预测COVID-19的传播。Sulyok和Walker [20];使用谷歌数据为不同的国家,建议有关社区流动性的数据是用于COVID-19建模,使用贝叶斯信息标准作为模型选择方法。这些数据来源被认为是分析流动模式的最佳数据来源之一[22]。然而,据我们所知,这些数据还没有在爱尔兰使用。上下文,也没有被用作将移动模式与使用秩传播方法的COVID-19传输数据。健康、社会和经济因素先前已在关于COVID-19传播的文献中形成讨论。Bloemers和Montesanti [25]研究了与越南感染COVID-19的工业工人相关的常见关键词,作为提出预防解决方案的一种手段。他们发现潜在的健康这些问题,加上工人Ronchi和Lovreglio [26]提出了一个事后模拟框架,以评估建筑物内限制和相互作用动态的病毒传播模式。他们的研究允许设置适当的参数Moham-madi、Chowdhury等人[27]从行人在人行道上而不是在建筑物中互动的角度提出了类似的方法。COVID-19的扩散严重阻碍了餐饮业。Araya [28]利用基于代理的建模(ABM)来模拟疾病在建筑工人中的传播,以使建筑项目在当前的大流行中得以成功实现。ABM的一个优点是它说明了由单个元素或代理组成的复杂系统。定义了控制交互和行为的规则,以模拟建筑项目中的代理。Araya [28]在他们的模型中将工人的活动分为低、中、高风险。通过代理的异质性和在同一环境中交互的可能性,系统行为出现在模拟过程中。他们的研究结果表明,COVID-19在建筑项目中的传播可能会使高风险环境中的劳动力减少高达90%Bar-Yossef和Mashiach [29]; Barr [30]添加到科学关于COVID-19证据的讨论表明,可能感染人群的拥挤环境会显著增加感染风险。相应地,排队和商店中的大量人员产生了具有较高传染风险的环境。为了保护消费者和工人,同时确保成本效益,Perlman和Yechiali[31]构建并分析了两个非经典的多服务器共享模型。在这种情况下,研究人员构建了一个衡量标准来估计客户的平均感染风险,与聚集在一个空间中的客户数量的二阶阶乘矩成比例。最后,一个博弈论模型已被用来研究均衡策略的能力和数量的工人在商店。通过他们的模型,Perlman和Yechiali [31]允许保护商店中的客户和员工,同时降低安全措施的相关成本。结合零售业,[32] ar的最新研究认为,购物者重返购物的意愿取决于他们的安全感,这与提供洗手液、限制商店人数和监控社交距离等措施密切相关。为了解决社会距离问题[33],利用不同研究领域的理论知识,如人群科学[34]或人体工学的运筹学[35]。在此理论基础上,研究人员开发了一种广泛的方法来确定个人在封闭和开放的商业空间中社交距离所需的最小空间。在他们的模型中考虑了静态(例如步行)和动态(例如自由行走)的约束[三十六] 找到 的 人 更 风险厌恶, 信息正框架,反之亦然。他们还认为,当信息被积极地(相对于消极地)框定时,高情绪化的人更愿意遵守预防性健康行为[37]。表明人和组织因素(HOFs)在预防和控制流行病(PCE)中发挥着重要作用。他们将分类系统转换为贝叶斯网络,以分析中国的COVID-19疫情。因此,它们为流行病和大流行病提供了一个风险评估模型。Santamaria,Sermi等人[38]从匿名和聚合的移动定位数据中得出移动性指标。这一指标反映了欧盟流动模式的信息。这与我们的研究有关,该指标用于研究COVID-19限制措施对欧洲流动性的影响。他们继续表明,这些限制措施可以解释很大一部分的流动模式的变化。这些 之前 研究 突出 复杂 之间的相互关系病毒传播和死亡率波动的不同原因,F. Irini等人阵列11(2021)1000753迄今尚未被视为单一方法网络的一部分。解决这一问题的一种建模方法是使用网络结构。模型化的数据和来自数据的概念可以是表1移动模式的粒度定义,根据Google LLC [48]。移动模式定义类别被认为是网络结构中的节点和节点之间的链接。每个节点对其他节点的影响可以用标签传播算法计算[39,40]。著名的标签传播算法杂货&药房杂货市场、食品仓库、农贸市场、特色食品店等场所的移动趋势药店和药房个性化网页排名(Personalised PageRank,简称PPR)。[41然而,这一方法以前没有在下列案件中使用过:公园移动趋势的地方,如当地公园,国家公园,公共海滩,码头,狗公园,广场,COVID-19统计数据和流动模式的变化。在数据集内,秩传播算法,PPR,用于调查爱尔兰的确认死亡时间序列的值中的不同原因的重要性(从另一个节点的角度来看,一个节点的重要性)。PPR已用于许多不同的实际应用中,例如-公交车站零售&休闲工作场所和公共花园。公共交通枢纽T(如地铁、公交车和火车站)等场所的移动性趋势。餐厅、咖啡馆、R购物中心、主题公园、博物馆、图书馆等场所的移动趋势和电影院。Twitter用户推荐谁跟随;在图论问题,如社区检测[44]。作为建模方法的一部分,我们计算了每个流动性趋势的个人排名PPR分数,并按照爱尔兰每个县进行了计算。 这些排名分数与流动模式、确诊病例和死亡有关。 然后将PPR评分标准化,并除以类别数,转换为相对突出因素和绝对重要性度量。这是一种代表性的方法,因为所有网络节点都是通过出现来简单地赋值的[41]。一旦估计了分数,就根据PPR的结果对县进行层次聚类。PPR与聚类方法耦合的概念在[ 45-47 ]之前已经得到证明。在以下章节中,我们描述了用于衡量每个县的流动模式和确诊病例对整个COVID-19大流行期间国家死亡总数的影响的数据和方法。之后,我们提出了我们的研究结果,并认为,零售和娱乐和工作场所系统地出现在所有国家的最关键的属性。我们强调在国家以下一级评估流动性影响的重要性。最后,我们对本研究的主要内容进行了简短的讨论研究结果,并强调我们的方法的局限性。3. 材料和方法在本节中,我们将介绍我们在文章中使用的数据收集和方法。具体而言,我们首先描述了数据收集(第3.1节)和预处理分析(第3.2节),其次是我们用于估计数据之间相互关系的算法方法(第3.3节)。最后,我们描述了属性重要性分析和聚类我们的结果(第3.4节)。3.1. 数据收集3.1.1. COVID-19社区流动性报告免费提供的Google LLC [48] COVID-19社区流动性报告(GCMR)被提取出来,它提供了对不同社交距离措施导致的流动性变化的评估。GCMR反映了谷歌地图用户的流动性与疫情前的基线期(2020年1月3日至2月6日)相比在各个类别中的百分比变化流动变化趋势类别包括杂货和药房、公园、零售和娱乐、中转站、工作场所和住宅(表1)。通过使用5周基线期内每个工作日的中值计算一组7个基线工作日,数据说明了每周运动的季节性。对于任何给定的数据日期,每日相对变化的值为相对于相应基线工作日的百分比变化。爱尔兰的GCMR提供县级信息。爱尔兰分为20个县:戈尔韦、利特里姆、梅奥、罗斯康门和斯莱戈(康诺特省),卡洛、都柏林、基尔代尔、基尔肯尼、劳瓦、朗福德、卢斯、米斯、奥法利、韦斯特米斯、韦克斯福德和威克洛(伦斯特省),克莱尔、科克、克里、利默里克、蒂珀雷里和沃特福德(明斯特省),工作场所的流动趋势W卡文、多尼戈尔和莫纳汉(阿尔斯特省)。3.1.2. 2019冠状病毒病确诊病例和死亡病例爱尔兰国家统计局的流行病学数据中央统计局(CSO),其中包括每个IE县(26个县)的确诊病例和死亡人数的每周数据,提取了2020年3月5日至2020年12月7日期间的数据1每一周的数据都是从一系列公布的信息中提取的,由CSO制作的信息公告-COVID-19洞察公告:死亡和病例。2这些公告旨在提供对死于或感染COVID-19的人的深入了解,来自健康保护监测中心计算机化传染病报告(CIDR)、HSE的Swiftcare(A2i)和COVID Care Tracker(CCT)系统。这些统计数据最初是从广泛的来源汇编的,包括中央统计局、爱尔兰中央银行、政府部门和机构以及其他国际来源。3.2. 数据预处理本研究使用GCMR和CSO每周COVID-19确诊病例和死亡情况的组合。GCMRResidential类别显示持续时间的变化(用户在家度过的时间,使用Google地图提供的家庭地址或估计的家庭地址)-其他类别衡量访问者总数的变化[49]。由于人们一天中大部分时间都在居住地度过,因此变化的能力并不显著。3居住数据不包括在一般商业登记册内,表示不同的度量,并且由于对Google数据集中使用的COVID-19的传播主要通过感染者和易感者之间的社会接触发生[50]。因此,流动性的减少应导致社会接触减少,然后是感染传播减少,最终是COVID相关死亡率减少[6]。然而,这一过程需要时间;正如预期的那样,今天观察到的身体活动能力下降可能会对未来几周的感染传播和相关死亡率产生影响这就要求在流动数据中引入一个时间滞后,这与流动变化对死亡率产生影响所需的时间相对应我们假设从病因(运动趋势类别的改变与基线相比的百分比变化)到确诊病例有1周的滞后。我们还怀疑,有一个2周的滞后,从一个1https://www.cso.ie/en/releasesandpublications/ep/p-covid19/covid-19informationhub/health/covid-19deathsandcasesstatistics/。2https://www.cso.ie/en/releasesandpublications/ep/p-covid19/covid-19informationhub/health/covid-19 deathsandcasesstatistics/.3https://www.latinamerica.undp.org/content/rblac/en/home/presscenter/director-s-graph-for-thought/home-alone-sustaining-compliance-with-proposed-covid-19-stay-.html。F. Irini等人阵列11(2021)1000754nn确诊病例至确诊死亡。这些假设是基于世卫组织的信息,该信息指出:“COVID-19的潜伏期,即暴露于病毒和症状出现之间的时间,平均为5 -6天,但可能长达14天。因此,从最后一次接触确诊病例起,隔离期应为14天。“从确诊病例到确诊死亡的2周滞后也得到了对爱尔兰死亡和病例总数的目视检查的支持(图10)。①的人。此外,每日流动数据与每周民间社会组织统计数据不一致。我们修改了我们的数据,以使每日流动模式与每周CSO统计数据的总和保持一致,前提是每周总数可作为每日COVID-19趋势的近似值由于对测试方法缺乏信心,当地医院和实验室的数据收集问题,地方当局的数据汇总以及政府机构的最终数据确认而产生的噪音。使用相关网络建模和我们在方法中使用的另一种平滑方法减少了噪声数据对结果的影响。我们将数据集中的流动性数据称为原因,将确诊的COVID-19病例称为病例。没有数据的时间序列被排除在原因和病例数据之外。关于原因,具体而言,由于缺失数据,所有数据集均消除了以下变量:[Leitrim_transition_stations,Longford_parks,Long-ford_transition_stations. Monaghan_parks,Roscommon_transit_stations].在整个(适当滞后)的一周。我们在这个网络分析中的重点是测量相对承诺,7天移动平均线,x′ =(xn+xn-1+xx-2+.+ xn-6)/ 7,即爱尔兰境内感染动态的流动性。每个因素的重要性是相对于其与爱尔兰记录的死亡人数的关联来衡量的(滞后3周)。鉴于此,重点放在爱尔兰内部因素上(使用从每个县记录的因素),我们从我们的分析中删除了“爱尔兰总病例”,以避免冗余。我们没有将爱尔兰的累积变量包括在最终数据集中。相反,我们使用了各县的个人数据。我们进行了初步检查,将爱尔兰作为网络分析中的一个节点;这一纳入并不影响最终结果(数据未显示)。截至二零二零年十二月,爱尔兰的COVID-19死亡率为2. 8%(基于76,000例病例)。在每个县一级,每周报告的死亡人数相对较低,这表明一些人口稀少或较小的县每周没有记录死亡人数。因此,我们使用爱尔兰的死亡总数,一个死亡时间序列(爱尔兰的确认死亡),而不是使用所有县的所有死亡时间序列。我们的模型假设不同国家的流动性和确诊病例之间存在相关模式。这种相关性可能反映也可能不反映因果关系。然而,这个假设在网络建模中是有帮助的。相关网络在不同的研究领域中发现复杂的模式是有用的,特别是在金融[51]和生物学[52]。用于从网络模型中提取结果的算法使用最大生成树[ 42 ]等方法过滤低相关性关系,或将其值与相关值一样多[53]。使用相关性假设不同国家的不同流动性和情况变量之间的互连的另一个好处是相关性的降噪效果[ 54 ]。COVID数据,特别是确诊病例数据,存在一个固有的问题,用于数据集的每个时间序列,通过平滑数据时间曲线来减少噪声。每个xi是时间序列中的每日值,x′是平滑时间序列中的转换值。数据集中的原因日期范围为2020年3月5日至2020年11月16日,对应于2020年3月26日至2020年12月7日的死亡报告。即使经过数据处理和降噪,最终数据集中的39,064个时间序列元素中仍有1643个(约4%)不可用。我们使用Python中Pandas包中相关函数的实现,它从计算中排除了缺失值。3.3. 建模方法为了模拟变量之间的关系,使用了相关网络结构。在我们的网络结构中,每个时间序列都是网络中的一个节点,每对节点之间的链接(有链接的地方)显示了它们的相关性。如上所述,数据集分为原因(流动模式的变化),确认的县病例和爱尔兰的确认死亡。在建立爱尔兰死亡变量之间关系的网络结构之后,使用等级传播算法(个性化PageRank)根据变量在爱尔兰死亡波动中的重要性对变量进行评分。这个阶段类似于基于图的半监督学习方法,其中一个节点的标签被传播到图结构中的所有其他节点[55]。然后,每个县的排名分数被归一化,并除以类别的数量(相对突出因子的计算)。所提出的特征选择方法使用相对突出因子大于1的类别。最后,将具有相同重要选择特征的县放入相同的聚类中。该方法的一般模式如图所示。 二、图1.一、 爱尔兰确诊病例和死亡病例。F. Irini等人阵列11(2021)1000755|-d(i,j)n==ii图二. 研究方法的一般模式。网络的最终结构如图3所示。Causes和Cases有两个完全连接的网络,Causes网络中的所有节点与Cases网络中的节点之间有一个定向连接。最后,在“原因和病例”的所有节点与“已确认死亡”节点之间存在有向连接。我们将每对Causes(或Cases)i和j之间的链接的权重标记为w(i,j)。为了计算链接的权重,首先,见图4。转置网络用于从死亡时间序列到其他时间序列(节点)的个性化PageRank传播。Pt=dMPt-1+(1-d)/dMP0节点i和j被转换为距离,di,j使用等式(1)[56]:P0=[0,0,(三)di,j =10002000×10002000̅̅1-̅C̅o̅r̅re̅la̅tio̅n̅ i̅ ,̅j)(一)|= n,(n:网络结构中的节点数)| = n, (n : number of nodes in networkstructure)每一对节点之间的权重(时间序列)都是计算出来的。P后一些迭代,的算法收敛当|P t-在Eq. (2)[55]:wi,j=e-262(2)由于1周、2周和3周的滞后,网络中每个原因到每个案例节点(时间序列)只有单向有向链接。从每个病例时间序列到爱尔兰的确认死亡节点和从死亡原因节点也只有单向定向链接。为了确定哪些节点(时间序列)对爱尔兰每日COVID-19死亡人数的影响更大,我们应该将排名从爱尔兰的确认死亡节点传播到网络中的所有其他节点。出于这个原因,我们必须使用转置网络,它与我们的网络相同,但所有方向都相反,图。 四、在构建转置网络结构后,我们使用个性化的PageRank中心性测量[41]来调查爱尔兰确认死亡值中不同原因的重要性。个性化的PageRank公式在等式中给出。(三)、在该等式中,P是具有n个元素的PageRank向量,每个元素用于每个时间序列(网络中的节点),M是从网络结构的邻接矩阵中提取的马尔可夫转移矩阵,d是阻尼因子,0.15参考[41];n是时间序列的总数(总数t1,其中是等式中的收敛阈值。<(3)估计了每个节点的排序得分然后节点(时间序列)根据它们的Personalised PageRank分数以降序排列。3.4. 属性分析与聚类根据建模方法,每个县单独计算个性化页面排名(PPR)得分,并与流动模式,确诊病例和死亡联系起来。PPR指示数据内的结构的绝对显著性,其不令人惊讶地将高亮度病例和死亡作为感兴趣的显著节点。在PPR网络中,移动性模式相对未被充分考虑。因此,我们将移动模式的PPR评分转换为相对显著的因素,从而可以识别相对显著的因素。我们通过以下方式实现这一目标:1. E从PPR评分总和中包括2. 通过将各个PPR分数除以其余PPR分数的总和,将与每个县相关的移动模式的PPR分数归一化,以形成各个显著性分数:网络中的节点数),并且t指示迭代计数。显著性分值PPRii=∑PPR3. 用每个显著性分数除以预期的显著性分数,使用天真的方法。在这种方法下,我们希望网络中剩余的每个因素都有一个等可能显著性分数(即,显著性评分i = 1)。的然后,可以通过测量观测值与预期显著性得分来确定结构内的每个移动性模式节点的相对显著性:相对突出度评分突出度评分i显著性分值显著性评分(Prominence Scorei)图3. 网络结构用于发现原因的重要性。×n4. 任何相对显著得分>1的变量对COVID-19死亡人数具有相对显著的影响,并且F. Irini等人阵列11(2021)1000756指示在数据内被过度表示(即,突出)的移动性模式节点。其基本思想是通过识别支持或链接到其他突出节点的节点来识别网络中的突出“节点”(因素)[ 29,57 ]。我们分析中的网络单独考虑每个县,与流动模式和确诊病例联系起来。PPR提供了被比较实体的相对重要性的指示;每个PageRank得分指示随机节点与另一个节点相关联的可能性。可能性越高,网络中的节点越突出。为了获得网络中每个节点的显著性的绝对度量,我们将每个节点的PageRank得分与天真的得分进行比较。简单的分数计算为总PageRank分数除以网络中的因素数量(移动性因素为125)。换句话说,这个分数提供了一个因素相对于其子组的“预期平均”显著性的指示。此后,我们通过对每个亚组中的类别计数进行归一化和划分,将PPR转换为相对突出分数。该操作意味着每个子组(移动性模式)的任何相对突出度得分>1的因素与爱尔兰的死亡人数比一个天真的消息灵通的连接。一旦估计了重要性,这些县将被分为不同的类别,以便于结果的可视化和讨论。根据得分的距离,我们以两种方式对各县进行分组;根据每个县的主导流动类别的数量。我们根据每个县的突出因素得分对每个县最重要的流动性类别进行了排序,并将这些县聚集在相同数量和相同主导流动性类别的组中。例如,两个只有零售和娱乐的县和工作场所得分在1分以上的,属于同一组。此外,我们根据其移动性得分的平均欧几里得距离将这些县分层聚类为9个聚类[58,59]。我们的层次聚类就像一个凝聚(“自下而上”)类型的聚类方法。它首先将每个元素视为一个单独的集群,然后将它们依次合并为更大的集群。具体来说,在分层聚类的每个特定步骤中,它会找到距离最小的一对聚类,然后将它们合并到一个新的父聚类中[60]。我们使用欧几里得聚类距离(平方距离之和的平方根重复该步骤,直到仅形成一个聚类,并且结果可以在树状图中描述[61]。在ClustVis上实现聚类[62]。4. 结果尽管有固定的数据周期(如第3. 2节所详述),为保持流动性数据与我们对COVID-19传播的预期之间的一致性,我们在数据准备阶段采用了从2020年3月5日到2020年11月16日,我们的日常流动模式总计来自每个地方的257次观察。假设从暴露到出现症状的平均潜伏期为7天,我们将流动模式与2020年3月12日至2020年11月23日的平均病例相关联。假设从最初出现症状到死亡还有14天的时间,我们将流动模式和病例与2020年3月26日至2020年12月7日的每周平均“死亡”数据相关联此外,我们对“COVID-19病例”及“COVID-19死亡”采用7天的逐步移动平均数流动模式数据可用于所有26个县的重新,爱尔兰公共与五个不同的指标(表1)。将这些数据与每个县的相关病例以及爱尔兰记录的总死亡人数相结合,网络中共有157个节点。然而,在人口稀少的县,与五项指标有关的流动模式值几乎没有-无数据;这些因素已从数据集中删除因此,最终的数据集由152个时间序列的257个每日数据组成,包括125个Google Mobility数据的时间序列,26个有报告数据的县的确诊病例的时间序列,以及爱尔兰每日确诊的COVID-19死亡人数的时间序列。为了说明各变量在排序得分中的显著性,我们将变量转化为相对显著的因素。任何具有如第3.4节所述,与初始方法相比,显著因子值>1对死亡人数的影响更显著在本节中,我们展示了本文中使用的方法的结果。具体来说,我们证明(一)影响爱尔兰死亡人数的最重要的原因,(二)影响爱尔兰死亡人数的主要原因在县一级,(三)集群,似乎有相似之处的县之间的基础上对爱尔兰的死亡人数的影响。在数据集中没有关于重要特征的排名的基本事实,或者在其他任何地方都没有测试集来使用诸如准确性、精确度或召回率等著名标准来评估错误。在我们的个性化PageRank算法中,值1被分配给Death节点,并通过网络结构传播。因此,错误的来源不是通过网络传播的内容,而是传播的方式。传播的手段是链接的权重。然而,如前所述,由于计算链接的方式,链接的权重可能是错误的来源。如方法中所提及的,这些权重通过超前-滞后相关函数来计算。该函数使用GCMR和CSO时间序列(噪声数据),这是我们方法中误差的基本来源。这种噪音是由于未能记录正确的信息或正确记录信息,来自不同本地来源(如当地医院)的信息聚合,以及周末和节假日缺乏数据收集而产生的。这些噪声的一些部分是相互关联的,而一些则不是。这些噪声传播到相关性表,到图的邻接矩阵,最后到PAGERANK结果。为了减少噪音,我们使用了7天移动平均平滑函数。与错误相关的另一个方面是PageRank算法,在迭代之后收敛。稳定状态定义了结果的收敛,这应该在一些迭代之后发生。我们使用值10-6作为最小值。该值已在不同的研究中使用,并且是可以控制Pag-eRank结果的最终误差的一个参数。如果最后两次迭代的结果之间的距离小于定义的误差,则收敛误差是可容忍的,并报告秩。因此,应报告该数量。4.1. 属性分析与聚类在包括Cases和Ireland deaths节点在内的整个网络结构中,移动模式的贡献率累计为19.5%。基于125个不同的移动性模式因素,PageRank得分大于0.15%的移动性节点具有比从天真的方法预期的更高的相对突出性。相比之下,PageRank得分低于0.15%的移动节点的相对突出度低于预期。我们重新计算PageRank分数,使预期平均值为1。因此,大于0.15%的移动性节点现在是分数表2显示了影响爱尔兰Covid-19死亡人数的主要因素(所有显著因素>从表2中可以清楚地看出,移动类别零售和娱乐(Reta.)工作场所(Workplace)是最重要的雷塔和工作是最常见的变量,出现在顶部的表格中相对显著因子>1的出现率分别为33%和38%,案件,分别。 流动趋势类别:杂货店和药房(Groc.)很少出现,占所有病例的15%具体县流动性F. Irini等人阵列11(2021)1000757表2影响2020年爱尔兰死亡人数的主要原因运动趋势类别1)Groc:杂货店和药房较基线的百分比变化,2)Park:公园较基线的百分比变化,3)Reta:零售和娱乐较基线的百分比变化,Tran:中转站较基线的百分比变化,4)Work:工作场所较基线的百分比变化。RPF:相对显著因子。县RPF县RPF县RPF米思公园1.848Westmeath_Groc.1.404斯莱戈_公园1.225Donegal_工作。1.516利默里克_工作。1.397利默里克_公园1.215Kerry_工作。1.514戈尔韦_工作。1.390都柏林_工作。1.210Wexford_工作。1.504沃特福德-雷塔1.389Monaghan_工作。1.208Cork_Reta.1.489基尔肯尼_雷塔。1.387卢斯_特兰。1.205基尔代尔-雷塔1.482劳伊斯雷塔1.380蒂珀雷里_公园1.204劳斯-雷塔1.472都柏林-雷塔1.376利默里克-格罗克1.194利默里克-雷塔1.467蒂珀雷里_工作。1.366Monaghan_Groc.1.161Louth_工作。1.464奥法利-雷塔1.366韦克斯福德公园1.156Meath_Work.1.463韦克斯福德-雷塔1.355沃特福德-格罗克1.152梅奥_工作。1.457Kildare_工作。1.341Sligo_Groc.1.151蒂珀雷里_雷塔。1.451梅奥-雷塔1.338Donegal_Reta.1.143沃特福德_工作。1.445基尔肯尼_工作.1.329卡文_工作。1.138基尔代尔_公园1.437卡洛·雷塔1.322斯莱戈_工作。1.132戈尔韦-雷塔1.431斯莱戈-雷塔1.321罗斯康门_工作。1.124威克洛_雷塔。1.424Westmeath_工作。1.320Kerry_Reta.1.109Meath_Reta.1.420Cork_Groc.1.319科克_Tran.1.097Wicklow_工作。1.419克莱尔_工作。1.318卡洛_工作。1.084劳斯公园1.416Laois_工作。1.279朗福德_工作。1.040软木_工作。1.414克莱尔·雷塔1.276朗福德-格罗克1.030Westmeath_Reta.1.411奥法利_工作。1.257卡洛·格罗克1.027卡文雷塔1.404戈尔韦-格罗克1.234Kilkenny_Groc.1.024在 比 较 整 个 国 家 的 变 量 时 , 类 别 - 公 园 似 乎 是 最 重 要 的(Meath_Parks)。很少有其他公园出现在最佳结果中(11%赞成)。流动趋势类别:过境车站(交通) 出现频率最低(低于5%)。对于以下五个地点,威克洛,卡文,劳伊斯,都柏林和奥法利,在县一级观察到类似的结构,对应于图五. 爱尔兰地图由县划分。最重要的类别按县显示(相对突出因子>1的类别)。县的颜色显示相似性。 运动趋势类别:Groc:杂货店和药店较基线的百分比变化,Park:公园较基线的百分比变化,Reta:零售和娱乐较基线的百分比变化,Tran:中转站较基线的百分比变化,Work:工作场所较基线的百分比变化。F. Irini等人阵列11(2021)1000758同样的前两个最重要的变量按降序排列,而没有出现第三个比朴素方法(零售、娱乐和工作场所)排名更高的变量(灰色,图1)。 5)。沃特福德、梅奥、克里和克莱尔与国家病例和死亡的关联相同,首先是工作场所,其次是零售和娱乐(绿色,图5)。类似的结果出现在朗福德和莫纳汉与杂货店和药店后的工作场所(紫色,图。5)。韦斯特米斯和沃特福德的重要属性相同;然而,零售业和娱乐业在韦斯特米斯的排名似乎高于沃 特 福 德 的 工作场所(浅蓝色,图1)。5)。斯莱戈和利默里克也展示了类似的结果,零售业和娱乐业排名第一。工作场所、杂货店、药店和公园紧随其后,排名略有不同(黄色,图5)。相比之下,科克和卢斯显示出类似的排名顺序,只有在这两种情况下,中转站才显得非常重要(橙色,图10)。5)。基尔肯尼,戈尔韦和卡洛达到同等的排名分数,与零售和娱乐得分首先来自工作场所和杂货店和药店(生动的蓝色,图。 5)。蒂珀雷里、基尔代尔、韦克斯福德和米斯遵循类似的模式,尽管在所有情况下的排名略有不同。一般来说,零售和娱乐,工作场所和公园是前三大重要变量(黑色,图1)。 5)。从上述排名顺序中得出的结果包括Roscommon,其中只有工作场所显示出显著性(粉红色,图5),而Leitrim显示出对爱尔兰任何类别的死亡人数都没有相对显著的影响。零售、娱乐和工作场所系统地成为所有国家最重要的五个不同的国家可以形成(图6)取决于其主导类别的数量。当检查顶部类别相同时,可以区分十个段。1. 一个细分市场,其中四个重要类别(原因)作为最重要的属性出现,包括零售和娱乐,工作场所,公园,杂货店和药房或中转站(科克,斯莱戈,利默里克和卢斯)。斯莱戈和利默里克拥有相同的前四名。2. 一个细分市场,其中三个重要类别作为最重要的属性出现,包括零售和娱乐,工作场所,公园或杂货店和药店(基尔肯尼,戈尔韦,卡洛,沃特福德,韦斯特米斯,蒂珀雷里,基尔代尔,韦克斯福德和米斯)。3. 一个细分市场,其
下载后可阅读完整内容,剩余1页未读,立即下载
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)