没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁20(2020)100364年龄分布特征预测患者组Shandar Ahmad印度新德里贾瓦哈拉尔·尼赫鲁大学计算与综合科学学院SciwhyLab,邮编:110067A R T I C L EI N FO保留字:COVID-19年龄概况大流行病分析A B S T R A C TCOVID-19疫情是一个严重的全球公共卫生问题。众所周知,COVID-19病例可能会导致轻微症状,导致患者康复。然而,不同国家、年龄组和人口群体的感染严重程度、死亡率和治疗反应表明,感染的性质是多种多样的,需要及时调查,以制定合理的治疗和预防战略。本文报告了基于其可能的感染地理来源(即英国,北美,欧盟,中东和亚洲国家)的六组印度COVID-19患者人群的年龄分布模式分析。观察到以这种方式分层的患者组具有不同的年龄特征,并且其中一些组(例如来自亚洲、欧盟和英国的患者组)形成了与来自北美、中东和其他地区的患者组不同的聚类。发现人群的患者年龄特征对他们所属的组具有高度预测性,并且有迹象表明他们在不同性别之间具有不同的恢复率和死亡率。总而言之,这项研究提供了一个可扩展的框架,以估计新的未知来源的COVID-19患者人群的感染来源。我们还得出结论,更多地公开患者的年龄和其他人口统计学特征细节可能有助于更深入地了解COVID-19感染的起源。本工作中使用的数据集和脚本在http://covid.sciwhylab.org上共享。1. 介绍COVID-19大流行是一个重大挑战,已在全球造成近550万例感染和超过35万例死亡[1]。为了了解和应对如此大规模的疫情,治疗和遏制策略还必须考虑感染的多样性以及潜在的差异,例如人群对可能存在的许多变体的反应方式。对这些病毒的遗传多样性进行了大量研究[2生物医学界对COVID-19变异体的多样性及其对临床结果的可能影响还不太了解,但病毒基因组的传播动力学和突变率至关重要[5,6]。例如,在撰写本报告时,各国的死亡率差异很大从低至4%到高达>15%[7]。<虽然确切的原因尽管对这些显著不同的死亡率和受影响年龄组中可能存在的差异尚不十分了解,但人们普遍认识到,需要收集和提供准确的临床数据以及进行详细的流行病学研究,以便了解和控制当前和未来的疫情,如COVID-19 [8,9]。在许多人口统计学研究中,患者年龄已被认为是预测临床结局的关键因素之一,包括死亡率和症状严重程度[8,10,11]。然而,一种特定的病毒变异实际上可能影响不同年龄组患者的方式尚未得到很好的研究。这种详细的影响分析需要对不同种族和年龄组的数千个样本进行测序,这一点尚未尝试。在这项工作中,提出了一种标记病毒变体及其与患者年龄分布关系的替代方法。利用印度COVID-19阳性病例的旅行史和潜在感染来源,从可能携带感染的不同地理位置确定了六组患者来自北美、英国(UK)、欧盟(EU)、亚洲、中东和其他地区的这些组的患者年龄特征显示,来自每个地区的患者具有明显不同的年龄分布,并且这些组倾向于聚集形成两个超级组。也有迹象表明,患者的恢复率和病死率可能与此处定义的患者组最后,电子邮件地址:shandar@jnu.ac.in。https://doi.org/10.1016/j.imu.2020.100364接收日期:2020年4月22日;接收日期:2020年5月29日;接受日期:2020年6月3日2020年6月4日在线提供2352-9148/©2020的作者所有发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表医学信息学期刊主页:http://www.elsevier.com/locate/imuS. Ahmad医学信息学解锁20(2020)1003642根据这些人口的简单年龄统计,量化一个新的人口群体如何被分配到这六个类别中的一个。从这些数据中随机抽样的人群的结果是非常有希望的,在这些可预测性。因此,本研究从COVID-19感染病例中建立了两个聚类,每个聚类有三个患者组,并提出了一个框架,以根据患者队列中的年龄分布分配患者组。预计有关分组临床反应的进一步数据,加上本文提出的患者群体自动注释,可以帮助改进针对COVID-19大流行的治疗策略。2. 方法2.1. 数据集这项研究基于www.covid19india.org上汇编的印度COVID-19患者的众包数据[12]。JSON:API提供了患者的详细信息,包括年龄、性别、恢复状态和可能的感染源。该资源基本上是印度各地邦(省)政府提供的每日更新的汇编,并且它试图以统一格式呈现关键信息,最重要的是:(a)数据管理局分配的患者识别号(b)州患者识别号(c)患者年龄(d)患者性别(e)旅行史或可能揭示感染源的患者的任何相关恢复或死亡。表格中现有数据的其他几个方面与本研究无关。这些JSON:API文件中的第一个(raw_data1.json)包含关于17,305名患者的数据,这是本研究中使用的数据的主要来源该数据将于2020年4月19日冻结,并可能保持不变。在大流行的早期阶段,只有最初几千例病例因此,本研究利用了前5000名患者的信息,其中许多患者没有年龄信息,留下的患者数据较少为了解析JSON:API文件,R包称为 rjson, 购自 CRAN 仓库,是 安装和利用。2.2. 可能的COVID-19变体的分类和标签至少在大流行的第一阶段,每名患者都可以追溯到感染源,例如前往感染率高的特定国家的旅行史。在大流行的后续阶段,未知感染源的病例数量会增加,数据对于创建感染源预测模型的用处变得越来越小。目前的研究将从所有患者群体中开发模式,这些模式可以有一定的信心追踪到他们可能的感染源,因此可以通过将这些发现应用于新的患者群体来开发见解,以获得更好的临床反应。在本研究中,最初的旅行史到一个国家已被视为传染源。已确定无旅行史但可能与有旅行史的人接触的患者,并由原始来源标记,以扩展注释数据。通过这种方式,所有已知的直接或可追溯到旅行史的感染源都被用于标记数据。通过将旅行历史集中到更广泛的地理位置,确定了五个特定的旅行历史组。因此,所有有欧盟成员国旅行史的患者都被标记为欧盟组。有美国和加拿大旅行史的患者,或可能被他们感染的患者,被合并到北美(N_Am)组,包括中国、新加坡和马来西亚在内的亚洲国家就像--被称为亚洲集团。同样,中东(MdlEst)病例是那些有伊朗或其他中东国家(如阿拉伯联合酋长国(阿联酋)和沙特阿拉伯)旅行史的病例。这些患者被排除在亚洲组之外。无论感染源在哪里如果无法确定或提供,则将患者置于因此,在本研究中确定了来自特定旅行史或其感染病例的五个患者组以及来源无法追踪的第六组,即本研究中每个类别中具有明确年龄注释数据的患者最终数量如图所示。1.一、2.3. 患者组的年龄分布特征在 许 多 但 不 是 所 有 情 况 下 , 患 者 的 年 龄 已 在covid19india.orgJSON:API源文件中以属性类型在上文定义的6个患者组中,该属性的患者年龄用作原始值,用于使用R编程语言中的Studentt检验进行显著差异的统计学检验此外,通过计算该组内0至80岁8个年龄组的10年分类间隔内的患者百分比,将原始年龄值转换为其相对频率直方图这些相对频率组织图用作组代表性特征,用于聚类这些组并从随机抽样人群中预测患者组标签(见下文)。2.4. 患者群体为了估计上文定义的SIX个两种聚类方法被用来评估 如果它们都产生类似的结果。在第一种方法中,从直方图中定义的分组群体密度用于表示每个患者组,并进行平均连锁聚类。接下来,根据分组群体密度计算患者组之间的所有对所有成对皮尔逊相关性,然后在该成对矩阵的行上进行聚类。预期一些患者组比其他患者组更相似,并且从这两个聚类模式探索这样的患者组聚类。Fig. 1. 本研究中6组潜在感染的患者数量。S. Ahmad医学信息学解锁20(2020)10036432.5. 恢复/死亡分析每组患者的恢复率是根据已关闭病例数定义的,包括的病例数少于患者总数,因为许多病例仍未关闭或在数据库中未标记为关闭。因此,死亡率定义为患者组中死亡患者的数量相对于该类别中已关闭病例的总数。定义了恢复指数的附加参数,以估计每个患者组内的生存概率,如下所示:恢复指数(R)¼log2(Nr/(1Nd))式中,Nr和Nd分别是康复和死亡的患者人数2.6. 自举样本和患者人群这项工作旨在建立一个框架,其中一个新的患者群体,如社区或村庄,可以分配到上述定义的六个患者群体之但是,由于我们在目前的数据中每个组只有一个人口,我们不能开发一个模型,对其可预测性有预先估计的信心为了克服这个问题,开发了创建多个群体样本的适当方法,其中从已经标记的患者组创建50个患者实例以创建一个群体。随后,创建来自六个组中的每个组的50个训练和50个测试组的群体,并由采样群体的归一化年龄直方图表示对于每个6个患者组,阳性分类数据对应于50个训练和50个测试示例。从其余组中抽取相同数量的阴性群体实例。多元线性回归模型在这些对应的50个阳性加50个阴性训练示例的集合上进行训练,并在另一组100(50 + 50)个示例群体上进行测试。训练和测试数据的性能水平为我们提供了适当的置信水平,在该置信水平下,可以估计新患者人群的组标签。对于六个患者组,创建单独的预测模型以评估来自该患者组的给定人群与其他人群相比的在所有情况 下,这项工作的预 测模型都是一个多元 线性回归(MLR)模型,使用R [ 14 ]中stat包的lm函数实现。本质上,MLR拟合线性方程,其中直方图箱频率作为自变量,并且感染来源的类别标签作为因变量,而回归系数在训练期间确定,以便基于群体的已知类别标签提供训练数据的最佳分类。这些回归系数被保留,并且使用这些训练参数在新的采样群体上测试模型的性能。2.7. 预测性能估计使用如上所述的随机抽样,在从相同群体生成的独立数据集上估计每个训练模型的性能。对于每个模型,正类是指来自一个特定患者组的样本人群,负类是指所有其他样本人群。以这种方式分配的二进制类标签使用MLR模型使用训练/测试协议进行估计。预测性能首先通过采用二进制类标签和由训练的MLR产生的预测模拟值之间的Pearson相关性来估计。以相同的方式,根据每对二元分类的预测模拟值计算受试者操作特征(ROC)的曲线下面积(AUC)。请注意,ROC的AUC是评估预测性能的标准量度。模型,其中用可变置信度水平预测二元类别标签,允许基于应用于预测模拟值的阈值选择灵敏度和特异性。为了评估这些模型中的置信度,将采样、训练和测试步骤重复10次,并且将预测性能评分呈现为这些迭代中的每一次的方框图3. 结果3.1. 患者组图2(a-c)提供了每组患者中患者年龄分布的第一次评估。图2(a)显示了一方面来自欧盟和亚洲感染的患者总体分布与另一方面来自中东和北美感染的患者总体分布之间的明显差异。图2(b)显示了更详细的分布,这表明即使平均年龄值使UK更接近MidEst和N_Am,单个直方图箱也表明UK的情况更复杂,并且年龄直方图上的严格聚类表明UK与EU和亚洲组的聚类更好。图2(c)重申了相同的模式,即使它利用数据之间的均值差(t检验)作为距离度量。在图3中,我们以两种不同的方式探索了年龄组之间聚类的详细模式。图3(a)显示了来自不同感染源的患者如何根据其年龄直方图聚类。显然,在平均患者年龄方面与N_Am和MdlEst相似的英国组倾向于更接近欧盟和亚洲组,因为30-40岁年龄段的人口密度更大,这表明这三个组中的每一个都有更多的年轻人被感染。图3(b)所示的第二个聚类测试是通过首先计算所有six对six组患者之间的直方图到直方图相关性,然后基于相关值对它们进行聚类来进行的(参见方法)。该方法还产生了类似于图10中所示的那些的聚类。图3(a),表明年龄组分布模式可能是一方面更好地聚集到英国/欧盟/亚洲,另一方面更好地聚集到中东/北美/其他。患者恢复数据及其性别差异也支持这两个集群的存在(见下文)。3.2. 按性别分列的康复率和死亡率为了研究患者组是否仅以其年龄方面的人群分布为特征,或者其恢复率也具有组特异性;计算每个患者组的恢复率和死亡率,然后计算组群,如图4所示。有趣的是,观察到患者恢复率也表明聚类模式与基于年龄直方图的聚类模式相似(有足够的恢复数据可用,仅显示了6个患者组中的4个,用于个体组比较)。例如,图4(a)显示,与“其他”组相比,亚洲/欧盟/英国组的男性和女性总体痊愈率较高。N_Am和亚洲组没有足够的数据来计算这些值,因为这些组中具有临床结果(恢复或死亡)的患者数量不足。合并来自患者组群的数据,死亡率的这些差异变得明显。我们不仅观察到MdlEst/N_Am/Other组的死亡率较高,而且男性与女性死亡率之间存在细微差异,表明该集群中女性的死亡率低于亚洲/欧盟/英国集群。然而,由于人数较少,由于在这些病例中的每一个病例中可用的患者数据的可信度很低,因此不能通过适当的测试来确定该统计量的置信度,并且关于这一点的更可靠的结论必须等待随着时间的推移出现更多的数据,或者可以由更容易获得患者年龄值的医院或卫生机构独立地确认。3.3. 来自新患者社区的接下来,我们评估上面获得的结果是否可以用于S. Ahmad医学信息学解锁20(2020)1003644图二. 基于潜在感染源的每组患者的年龄分布(a)显示三个四分位数和患者年龄数据范围的BOX图, 每个组(b)在将它们汇集到八个箱中之后每个患者组中的相对频率直方图(c)每对患者组的年龄之间的-log(p值)的分布。每当从患者社区获得新的人群年龄分布时,重新分配感染源组标签。例如,我们能否预测来自一个村庄的患者是否携带来自亚洲、英国或本文研究的六个群体中的任何一个的COVID-19病毒感染?为了评估这一点,创建了人口的随机样本,并在人口的随机样本上创建了预测模型。随后,如方法中所述,在新的随机集上测试这些训练模型。图5示出了根据每个患者组的预测类别和组标签之间的相关性的来自这样的预测模型的结果。据观察,这些类别中的每一个中的群体组预测高达80-90%AUC。最差情况是中东和其他组,也显示出0.60及以上的相似Pearson相关性,每种情况下生成的100个样本群体的平均AUC总是达到88%以上(100次迭代的分布示为BOX图)。尽管由于训练和测试示例之间的冗余,Bootstrapping类型的交叉验证易于高估性能水平,但是来自少量特征值(8个概率密度箱)的这种高水平的可预测性是非常有希望的。4. 讨论公共领域中有许多与COVID-19相关的数据汇编,来自世卫组织和州政府等各种机构。像这样的感染源研究可以根据国家特定的数据进行,其中所有感染或多或少都是相同的来源。然而,在这种情况下,在不同条件之间观察到的年龄分布差异将进一步受到其他因素的混淆,例如:(i)正在测试的程度和目标人群,(ii)S. Ahmad医学信息学解锁20(2020)1003645图三. 患者组在其年龄段方面的详细视图和进一步聚类(a)基于每个感染组中的频率直方图进一步聚类的患者组(b)由患者组与所有其他组的直方图-直方图相关性(相关向量)表示的患者组的备选聚类。有关详细信息,请参见方法。图四、 单个患者组及其合并相应患者人群形成的两个主要聚类的恢复率和病死率分布。种族差异从一个地方到另一个,和(iii)一般人口年龄的变化。从单个国家和位于同一国家的患者组的感染来源获取人口数据,以更好的方式减少了检测策略、背景人口统计学、遗传变异和感染时间点之间的差异。一些警告仍然存在。第一个问题是缺乏关于年龄、性别和恢复状况的数据。 数据库中有许多患者没有或只有部分此类信息可用。更好地记录这些数据并及时提供这些数据将有助于进一步开展这些研究。从分析角度来看,英国、美国和欧盟的旅行人群年龄特征本身可能与中东和亚洲国家的旅行人群不同,因此本研究无法获得这些数据。这些问题今后可能需要进一步调查。然而,尽管有这些警告,这项研究提供了一个框架,利用基本的患者人群概况,如患者年龄分布,以隔离他们的感染源,并可能制定战斗策略,这些差异的通知。从这项研究和任何数据驱动的研究中出现的一个自然问题是因果关系为什么不同的人要S. Ahmad医学信息学解锁20(2020)1003646¼图五. 根据从每个类别中随机抽样的患者的年龄分布特征对人群感染类型的可预测性。(a)通过预测值和样本类别之间的相关性测量预测性能。(b)对于与(a)相同的模型,通过ROC的AUC测量的预测性能(see方法)。历史对病毒的反应不同吗如果这里研究的人群被认为或多或少是一致的,因为他们都来自同一个国家,那么差异可能是由于患者可能感染的国家的冠状病毒突变。如果这确实是真的,它将对治疗和疫苗接种策略产生巨大影响,因为针对一种菌株和目标人群开发的治疗方法可能对其他突变变体无效。然而,现在就得出病毒突变引起的所有变异的确切结论还为时过早。正如上面的警告所述,前往不同国家的人们的社会经济背景可能是一个很大的混淆因素。鉴于这些令人兴奋的可能性以及变异的潜在来源和影响,需要并继续对COVID-19患者的年龄特征进行进一步研究。5. 结论该研究确定,按旅行和接触史分层的受影响患者组具有不同的患者年龄分布模式。在这类患者的六个类别中,确定了两个患者组群,其在不同年龄组中也具有男性与女性死亡率的差异模式,尽管由于可用数据量的原因,只能记录细微差异。还引入了一个框架,以预测的方式将新的患者人群分配到这些预定义的类别之一。总的来说,如果这些数据也可以与临床变异的详细临床病史和遗传结构联系起来,那么就可以开发出一种强大的对抗冠状病毒的战斗策略,其中包括这些发现。竞合利益作者声明,他们没有已知的可能影响本文所报告工作确认本研究得到了相应作者的以下资助:SERB,印度科学技术部(批准号:EMR/2017/005485)和印度生物技术部(批准号:BT/PR24208/BID/7/801/2017)附录A. 补充数据本 文 的 补 充 数 据 可 在 https : //doi 网 站 上 找 到 。org/10.1016/j.imu.2020.100364。伦理声明提交人必须明确声明,他们遵守了本国适用于他们引用[1] https://www.who.int/emergencies/diseases/novel-coronavirus-2019网站。[2] 潘泰SARS-CoV-2的遗传多样性和进化《感染遗传进化》2020;81:104260。[3] 崔建,李芳,石志良.致病性冠状病毒的起源和进化。Nat RevMicrobiol2019;17:181-92.[4] Wang C,Liu Z,Chen Z,Huang X,Xu M,He T,et al.SARS-CoV-2参考序列的建立JMed Virol 2020. 网址://doi. org/10.1002/jmv.25762。(在印刷之前在线)。[5] 李X,王W,赵X,ZaiJ,赵Q,李Y,Chaillon A.2019-nCoV的传播动力学和进化历史。J Med Virol 2020;92:501-11.[6] 吴军,刘军,赵旭,刘春,王伟,王丹,等.江苏省COVID-19输入性病例临床特征:多中心描述性研究。2020年临床感染疾病。ciaa199.10.1093/cid/ciaa199。(在印刷之前在线)。[7] https://coronavirus.app/map?模式感染。[8] 博帕尔河COVID-19全球:我们迫切需要按年龄组和性别划分的精确数据。BMJ2020;369:m1366.[9] 放大图片作者:Liu M,Zhang L.定义COVID-19的流行病学-需要的研究。 新英格兰医学杂志2020;382:1194-6。[10] 放大图片作者:J.生物年龄的生物标志物作为COVID-19疾病严重程度的预测因子。老龄化(纽约州奥尔巴尼)2020;12(8):6490-1。https://doi.org/10.18632/aging.103052.[11] Mahase E COVID-19:研究估计,死亡率为0.66%,并随年龄增长而增加。BMJ2020;369:m1327.S. Ahmad医学信息学解锁20(2020)1003647[12] https://www.covid19india.org/网站。[13] RC团队。R:统计计算的语言和环境。奥地利维也纳:R Foundation forStatistical Computing; 2013。 URL.[14] Chambers JM.线性模型。Pacific Grove,California:Wadsworth&Brooks/Cole;1992 [Chapter 4].
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功