没有合适的资源?快使用搜索试试~ 我知道了~
文章密歇根基因组学倡议:一个连接密歇根医学患者基因型和电子临床记录的生物库图形摘要亮点密歇根基因组计划(MGI)是密歇根医学患者的生物库。dMGI参与者主要在手术过程中招募d相对于基于人群的生物库,手术入组丰富了临床结局d在MGI进行的全球水资源评估的汇总统计可供感兴趣的研究人员作者马修·扎维斯托夫斯基,拉尔斯·G.Fritsche,Anita Pandit,.Michael Boehnke,Gonc. Abeca sis,SebastianZollner通信mattz@umich.edu(M.Z.),szoellne@umich.edu(S.Z.)简言之Zawistowski等人介绍了密歇根基因组学倡议,这是密歇根医学的一个连锁基因型和患者临床数据的生物库。这个基于卫生系统的生物库主要招募外科手术患者,比基于人口的生物库产生更高的病例数,从而能够对广泛的特征进行遗传研究。Zawistowski等人,2023,细胞基因组学3,1002572023年2月8日,作者。https://doi.org/10.1016/j.xgen.2023.100257会会开放获取文章密歇根基因组学倡议:一个连接密歇根医学患者基因型和电子临床记录的生物库Matthew Zawistowski,1,6,*Lars G. Fritsche,1Anita Pandit,1Brett Vanderwerff,1Snehal Patil,1Ellen M。施密特,1彼得VandeHaar,1克里斯汀J威勒,2乍得M。Brummett,3Sachin Kheterpal,3Xiang Zhou,1Michael Boehnke,1Gonc. Abecasis,1,4和SebastianZöllner1,5,*1密歇根大学生物统计学系和统计遗传学中心,美国2内科,心血管内科,人类遗传学系,密歇根大学,安阿伯,密歇根州48103,美国3美国密歇根大学麻醉学系,Ann Arbor,MI 481034Regeneron Genetics Center,Tarrytown,NY 10591,USA5密歇根大学精神病学系,美国6引线触点* 通信:mattz@umich.edu(M.Z.),szoellne@umich.edu(S.Z.)https://doi.org/10.1016/j.xgen.2023.100257总结关联临床病史和生物样本的生物库是为现代遗传学研究生成大型队列的有效策略生物样本库的招募因地理流域和采样策略等因素而异,这些因素会影响生物样本库的人口统计学和研究效用。在这里,我们描述了密歇根州基因组学倡议(MGI),一个单一的卫生系统生物库,目前包括>91,000名参与者,主要是在密歇根州医学外科手术中招募的手术登记导致生物库中富含许多疾病,并且非常适合疾病遗传学队列。与更大的基于人群的英国生物样本库相比,MGI对几乎所有基于诊断代码的表型具有更高的患病率,并且对许多表型具有更大的绝对病例计数全基因组关联研究(GWAS)的结果重复了已知的发现,从而验证了遗传和临床数据。我们的研究结果表明,在单一卫生系统内的机会主义生物样本库采样为探索复杂疾病的遗传学提供了独特和互补的资源。介绍全基因组关联研究(GWAS)已经确定了数千种与广泛的人类表型相关的遗传变异。1传统上,GWAS的设计考虑了特定的表型或少数相关结果。受试者是根据表型和数据收集专门招募的,数据收集仅限于特定的目标结果和相关的混杂变量。这种设计策略优化了单个特定表型的功效,但对研究其他结果的重复使用潜力有限。最近一波将个人水平的遗传数据与密集的临床健康史联系起来的生物库储存库已经戏剧性地改变了遗传研究的表型范式。2生物样本库允许在一组常见的基因型样本中进行广泛的表型分析,通常是通过利用现有的患者电子健康记录(EHR),允许在同一队列中研究广泛的临床重要结局。生物库设计不是针对单一表型进行优化,而是创建了一个资源,用于在不同表型和研究问题中重复使用。丰富的临床数据允许微调纳入标准和表型定义在每个研究的基础上,使用诊断、临床实验室结果、药物使用、成像结果等的组合。因此,相同的生物库队列可以产生数千种表型的GWAS,每个GWAS都具有很高的成本和时间效益,因为参与者招募、同意和基因分型都是提前完成的,并且表型是在现有的临床数据上进行的。此外,生物库还产生了新的分析方法,这些方法利用了在同一组样品上测量整个表型组的独特功能。例如,全表型关联研究(PheWAS)测试了个体遗传变异在整个表型组中的关联,允许调查共病结果和多效性遗传效应,同样不需要额外的参与者招募或数据收集。3尽管生物库共享一个共同的主题,即关联的临床和生物数据,但它们在其他方面具有显著的异质性。目标人群人口统计学、招募策略和标准、知情同意程序和数据共享的差异引入了不同的获益和局限性。大型国家生物银行,如英国生物银行(UKB),4日本生物银行,5和我们所有人6,旨在利用广泛的地理招聘策略,在各自的国家捕捉不同的个人。这CellGenomics 3,100257,February 8,2023?作者。1这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。会开放获取文章2Cell Genomics3,100257,2023基因数据阵列基因型(570K标记)样品水平QCMGI队列冷冻3队列(57K高质量样本)TOPM插补(52 M孔-插补标记)遗传学推理(PCA)51K推断的欧洲样本91K参与者临床资料GWAS分析汇总统计量76M EHR Phecode映射ICD代码(R PheWAS)1,817Phecode赛格效应量(OR)p值(1,547个性状w/ ≥ 60例)图1. 密歇根基因组计划(MGI)资源和分析MGI目前由约91,000名参与者组成,他们是在密歇根医学卫生系统寻求护理时招募的。招募主要是通过麻醉科在住院手术遇到。参与者同意将知情同意期间获得的血样与其电子健康联系起来记录用于广泛的研究目的。使用定制的Illumina Infinium CoreExome-24阵列从血液样本中提取的DNA中获得约570,000种遗传变异的基因型在本文中,我们描述了MGI我们提取了所有可用的国际疾病分类(ICD)诊断代码从病人的电子健康记录,并映射到更广泛的二分法phecode性状使用PheWAS软件。我们使用SAIGE软件中实现的线性混合效应回归模型在来自Freeze 3队列的约51,000个欧洲推断样本的子集我们报告了结果,并分享了R60病例的1,547个性状的GWAS汇总统计量。‘‘population-based’’> 500,000个样本,All of Us的目标是> 100万个样本。为了实现这些庞大的规模,参与者可能会从多个卫生系统中招募,并且可能需要大量的工作来合并临床数据的异构来源。另一种生物库设计是在单一医疗保健系统内进行本地化招募。7-MGI招聘始于2012年,目标是为密歇根大学的生物医学和精准健康研究提供资源。招募主要发生在密歇根医学院住院外科手术期间的麻醉科。在手术过程中招募提供了一个方便的机会,以获得患者的同意,完成问卷调查,并收集血液样本生物标本。MGI参与者同意将他们的血液样本(随后存储在密歇根大学中央生物储存库)与他们现有和未来的临床数据(包括他们的密歇根医学EHR)联系起来。知情同意书涵盖了广泛的研究目的和再接触的可能性,有意简短,并附有一本易读的小册子,用外行的语言和图片描述描述了风险和益处https://precisionhealth.umich.edu/our-research/由此产生的数据集是一个丰富的资源免费提供给密歇根大学的研究人员。MGI已经做出了广泛的研究贡献,包括临床实验室测量的新变体发现10;基于PheWAS的多基因风险评分-性状关联的鉴定11;化疗毒性的药物遗传学分析12;将MGI参与者作为“外部"对照整合14本文描述了MGI队列,详细介绍了我们严格的质量控制程序,并提供了基于诊断代码的1,547种表型的原理证明GWAS结果(图1)。我们通过比较各种临床表型的病例数和更大的基于人群的UKB,调查了MGI中住院手术患者的机会性招募的影响。我们通过交互式“PheWeb "应用程序15(包括曼哈顿图、区域关联图和PheWAS分析(www.example.com))共享本文中提出的GWAS结果的完整集合,展示了单一卫生系统生物库可以为更广泛的遗传研究社区提供的宝贵贡献https://pheweb.org/MGI/相应的GWAS汇总统计量可供研究社区用于重复分析、荟萃分析和假设 驱 动 查 找 。 有 关 索 取 汇 总 统 计 数 据 的 信 息 , 可 查 阅https://precisionhealth.umich.edu/our-research/documents-for-researchers/。结果截至2022年4月30日,91,695名在密歇根州医疗卫生系统接受护理的患者同意参加MGI。参与者是在滚动的基础上招募的,并在大学的高级基因组学核心分批进行基因分型。自项目启动以来,入组人数稳步增加,从2013年开始每月约730个样本,到2014年,Cell Genomics3,100257,2023年2月8日3会开放获取文章图2.MGI招募、人口统计学和临床随访(A) 随着时间的推移,MGI招聘实线是总体招募情况,虚线是自报种族不是白人的参与者(B) MGI参与者的年龄和性别分布。(C) MGI参与者的临床随访时间。随访是参与者在密歇根医学电子健康记录(EHR)中的首次和最近诊断代码之间的时间量(D) MGI参与者的年龄分布在随访时间内几乎相同在2020年因大流行而暂停入组之前,2019年每月仅超过1,000份样本(图2A)。值得注意的是,自我报告其种族为白人以外种族的个人的登记人数也从2013年的每月71人增加在这篇文章中,我们描述了MGI“Freeze 3”(2020年3月23日)的遗传和临床数据,其中人口统计学和临床描述的的群组MGI参与者的年龄范围从18岁到90岁以上(图2B;表S1)。女性略多(53%),男性参与者略大(58.4岁vs 54.7岁;图2 B)。大多数受试者自我报告种族为白人(n = 49,605,87%),其次是非洲裔美国人(n = 3,223,5.6%)和亚洲人(n = 1,324,2.3%),805人表示西班牙裔或拉丁裔(表S1)。国际疾病分类(ICD)代码的数量在参与者之间存在差异,反映了个体之间在总体健康和卫生系统利用方面的差异。为了测量每个参与者与密歇根医学医疗保健系统互动的时间长度,我们计算了随访时间,定义为个人最早和最新ICD诊断之间的时间差。随访时间呈U型分布,随访次数最时间为1年和~19年(图2C)。大约20年的上限对应于电子捕获诊断代码始于2000年的密歇根医学。受试者年龄的分布在随访时间内几乎相同,表明随访时间在很大程度上与受试者年龄无关(图2D)。菲科德traits由于ICD代码的粒度和冗余,我们使用PheWAS软件将单个ICD代码映射到更广泛的二进制phecode traits。16个单独的phecode特征可以分为17个临床相似特征的一般类别例如,高血压(phecode401)、心肌梗死(411.2)和心肌炎(420.1)都映射到我们总共观察了1,817个phecode特征的案例样本,其中1,712个特征至少有20个案例(表1)。最常见的特征与高患病率疾病相关(图3A),包括高血压(phecode 401和401.1);脂质紊乱(272和272.1);肥胖(278和278.1);食管/胃食管反流病(GERD; 530、530.1和530.11);和精神健康障碍(情绪障碍:296;焦虑:300、300.1;抑郁:296.2)。一些疼痛相关的特征(关节疼痛:745;腹痛:785;疼痛:338)也出现在最常见的phecodes中,可能部分是由于通过麻醉学招募手术患者。每个样本的phecodes数量严重右偏(中位数:31,平均值:44.2,最大值:435),与年龄(图3B)和随访时间(图3C)呈正相关。4Cell Genomics3,100257,2023会开放获取文章表1. 欧洲MGI参与者的phecode特征和GWAS结果总结Phecode范畴总phecode特征分析的特征(R60病例)具有R1 GWS基因座的性状(MAF>1%)GWS数量最强关联(MAF> 1%)循环系统171 160 108(43)200(72)房颤(427.21),p =1.2e-37, chr 4:110 762 205先天性异常56 44 18(3)36(3)泌尿生殖系统先天性异常(751),p =4.0e-09, chr2:161,318,326皮肤病95 77 53(17)93(22)寻常型银屑病(696.41),p =4.7e-28, chr 6:31 274 954消化系统162 149 95(39)198(59)其他慢性非酒精性肝疾病(571.5),p =3.0e-54,chr 22:43,928,975内分泌/代谢169 129 92(65)277(180)1型糖尿病(250.1),p =4.2e-106, chr 6:32 658 525泌尿生殖系统173 157 101(25)191(39)肾炎和肾病分类在他处(580.31),p=1.4e-19, chr 6:32,706,117造血62 45 32(16)65(26)原发性高凝状态(286.81),p =2.8e-157, chr1:169,549,811感染性疾病69 54 28(8)37(8)曲霉病(117.4),p =4.3e-17,第7章:117,559,590伤害和中毒122 93 49(5)79(6)水杨酸盐造成不良影响在治疗用途中(965.3),p =2.4e-10, chr 6:33 091 097精神障碍76 63 39(11)64(12)痴呆(290.1),p =2.1e-18,44,908,684肌肉骨骼132 114 71(19)121(20)强直性脊柱炎(715.2),p =2.9e-35, 6:31,357,491新癌141 129 76(29)194(85)其他非上皮性皮肤(172.2),p =1.8e-38, chr6:396,321神经系统85 74 50(11)79(14)不宁腿综合征(327.71),p =6.8e-29, chr 2:66 523 432妊娠并发症46 28 18(7)23(7)恒河猴同种免疫妊娠(654.2),p =1.4e-54,chr 1:25,257,119感觉器官127 112 65(18)105(25)Fuchsp =2.0e-31, chr 18:55,543,071症状46 41 25(2)43(2)不明原因的发热(783),p =2.9e-08, chr 7:37,808,912总数1,817 1,547 977(340)1,901(606)我们报告的结果phecode性状与至少60例。最强关联列包含phecode特征名称(数值phecode)、p值和每个phecode类别中与最小p值关联的染色体位置p =5e-8的阈值用于全基因组显著性(GWS)。我们比较了MGI和较大的UKB之间的phecode特征。总体而言,MGI在几乎所有phecode特征中的患病率都较高(图S1)。我们观察到1,772个phecode性状,其中MGI或UKB至少有一个病例。其中,UKB有354例没有病例,MGI有22例没有病例,其中许多是常见病。例如,在UKB中,基底细胞癌(172.21)、胰岛素泵使用者(250.3)、低钙血症(275.51)和高钙血症(275.6)没有phecode定义的病例。这些特征的缺失病例反映了不同的ICD编码系统或ICD编码的差异使用两个生物库之间的差异,而不是队列中实际缺乏这些特征。由于关联性研究的把握度最强烈地依赖于病例数量,因此比较MGI和UKB之间的病例总数更具信息性:在两个生物库均有病例的1,358个phecode中,MGI的557个(41%)病例计数较高(图4)。MGI在所有phecode类别中具有更大的病例数,特别是有48个phecode特征,MGI的病例呼吸8578五十七(二十二)九十六(二十六)第7章:117,559,590囊性纤维化(499),p =9.8e-49,Cell Genomics3,100257,2023年2月8日5会开放获取文章图3. MGI临床数据(A) MGI参与者中最常见的phecode特征(B) 每个样本的phecode案例分配数量随着参与者年龄的增加而增加。(C) 每个样本的phecode病例分配数量随着参与者随访时间的增加而增加。从箱形图中排除离群值以提高可读性。在UKB中发现(表S2),包括“维生素D缺乏”(phecode:261.4);“疼痛"(phecode:338);”偏头痛伴先兆“(phecode:340.1);”失眠"(phecode:327.4);和“水痘感染”(phecode:079.1)。MGI比UKB有更多病例并且病例计数> 10,000的Phecode特征包括超重/肥胖(278,278.1);情绪障碍(296);抑郁(296.2);焦虑(300,300.1);睡眠呼吸暂停(327.3);过敏性鼻炎(476);呼吸系统的其他症状(512);疼痛(338);关节疼痛(745);和背痛(760)。基因数据总体而言,遗传推断的祖先与从预约登记调查获得的自我报告的种族和民族一致(图5A)。大多数自我报告为白人的参与者与欧洲人类基因组多样性项目(HGDP)人群聚集在熟悉的大陆主成分分析(PCA)图的顶部。几乎所有自我报告的MGI中的非洲裔美国人参与者都集中在HGDP非洲和欧洲参考人群之间,这与这些人群之间的混合一致。自我报告的亚洲参与者显示出与西亚和中亚/南亚HGDP人口相对应的两个不同的集群。正如预期的那样,报告西班牙裔/拉丁裔种族的参与者绝大多数出现在欧洲和亚洲大陆之间,说话的人17我们在MGI参与者中确定了许多遗传推断的家族结构(图5B)。总体而言,10,246名(18%)参与者与另一名MGI参与者至少有一个在考虑二度和三度关系时,观察到各种复杂的多代配置(图S2)。我们比较了TOPMed和HRC参考组之间MGI参与者中插补基因型的数量和质量。使用TOPMed的插补在质量控制(QC)过滤后产生了51,857,319个变异,而使用HRC参考组产生了32,477,751个变异,在等位基因频率谱的下端可插补变异的增益最大(图S3); TOPMed插补产生了45,399,294个变异,次要等位基因频率(MAF)在0.01%和5%之间,插补Rsq>0.3,而基于HRC的此类变体为26,769,074此外,TOPMed插补的变体在整个频谱中更准确,特别是对于MAF 5%的变体(图S4)。比较来自不同祖先的样品之间的参考组揭示了TOPM化的参考单倍型的增加的多样性导致所有非欧洲样品中增加的插补准确性(图5C)。大多数非洲血统样本在植入准确性方面表现出最大的改善,即使是常见的变异,也反映了大的6Cell Genomics3,100257,2023会开放获取文章--图4.按疾病类别比较MGI和UKB之间的phecode病例数在所有疾病类别中,MGI具有比UKB更多病例的phecode特征。TOPM中的非裔美国人与HRC中的非裔美国人的比例我们观察到亚洲MGI样本的准确性有更适度的增加,可能是因为TOPMed包含相对较少的亚洲单倍型。GWAS结果我们最初对51,857,319个带有MAF的SNPs中的1,712个phecode性状进行了GWAS,其中至少有20个病例来自51,583个MGI样本,这些样本具有遗传推断的欧洲血统>0.01%,插补得分Rsq >0.3。基因组对照值的评估表明,少于60例的性状对膨胀高度敏感(图S5)。因此,我们呈现了具有R60情况的1,547个性状的结果(表1)。我们在977个phecode性状中确定了1,901个不同的全基因组显著位点,其中包括17个phecode类别中的每一个的至少一个全基因组显著许多关联发生在低频率SNP上,在全基因组显著性的标准5e 8阈值下,这些SNP具有较高的cance。18在MAF> 1%的SNP中,我们观察到606个相关性,我们最强的关联发生在rs6025(chr1:169,549,811,也称为因子V莱顿突变p.Arg506Gln)和原发性高凝状态(phecode:286.81)之间。该SNP是与凝血相关的多种phecode性状的最高关联之一(286.8:高凝状态; 286:凝血缺陷; 286.7:其他和未指明的凝血缺陷; 286.12:其他凝血因子[包括因子VII]的先天性缺乏)。rs6025与静脉血栓栓塞症20和血栓形成之间的关联先前已有报道。21rs143260331与两个嵌套房颤phecode特征(427.2和427.21)相关,并且与房颤和扑动的既往相关性接近。我们 还观察 到HLA 基因 座中的 SNPs 与1型糖 尿病相 关的phecodes这些关联已经在GWAS目录中针对相关性状进行了报道。例如,我们观察到chr 6:32,658,525(接近HLA-DQB1)与phecode 250.1:1型糖尿病(4.23e 106)之间的关联,这在以前已有报道29用于糖尿病药物治疗。总的来说,我们的结果复制了340个特征。为了评估我们的遗传数据和phecode性状的质量,我们比较了MAF >1%变体的30个最显著的关联与GWAS目录中报告的先前鉴定的关联(表2)。在这个列表中,有15个独特的SNP,因为有几个与多个相关的phecode性状,反映了ICD编码的层次性质。对于10个SNP,我们观察到与GWAS目录中的相关性状在确切的染色体位置相关。四个SNP在50 kb的窗口内具有相关关联。我们在GWAS目录中没有观察到密切的表型相关性的一个关联是插入或缺失(indel)rs113993960(chr7:117,559,590:ATCT:A)和囊性纤维化(phecode 499)。然而,插入缺失是CFTR内的低频致病性框内移位。19已知的信号,表明MGI中的表型和基因分型能够实现良好校准的GWAS。讨论本文描述了MGI生物库的招募,数据收集和它验证了基于三级医疗中心内本地化招募的生物库设计,主要是在术前住院期间。对手术患者的强调引入了选择偏差,这扭曲了疾病患病率等人口指标,但为遗传研究资源提供了明显的优势具体来说,MGI是丰富的几乎所有疾病的结果相比,Cell Genomics3,100257,2023年2月8日7会开放获取文章图5.MGI受试者的遗传推断祖先和相关性总结(A) 自我报告的种族/民族和遗传推断的祖先的比较。MGI样本被投影到由人类基因组多样性项目(HGDP)的全球样本创建的主成分(PC)参考空间中。每个小组显示所有MGI参与者,参与者按自我报告的种族或民族着色。(B) 独特的遗传推断的家族配置包含MGI参与者之间的亲子关系和全同胞关系。这些数字是每个配置的观测计数。(C) 通过推断的祖先群体比较TopMed和HRC插补准确性TopMed在所有人群中提供了更准确的插补,在非欧洲参与者中获得了显着的收益。一般卫生系统人口以及更大的人口抽样生物库。虽然MGI和UKB之间观察到的一些病例计数差异可能是不同诊断编码标准的结果这种病例富集反映了GWAS中常规使用的非随机抽样技术,例如病例对照和极端表型选择,专门设计用于增加统计功效。结果是,MGI提供了强大的GWAS测试,尽管它比全国招募的生物库小得多。我们对ICD衍生的phecode性状的GWAS分析证实了这一点,该分析产生了1,901个全基因组显著关联,其中最强的复制了已知的基因型-表型关联。毫不奇怪,本地化招募也导致许多相关参与者加入MGI,包括各种复杂的多代配置。根据分析,相关样本可以提供信息,也可以为遗传研究带来统计挑战MGI参与者之间的相关性程度突出了在对生物库数据进行GWAS时使用适当考虑样本相关性的方法的重要性。36单一卫生系统生物库为遗传研究提供了许多好处,最重要的是在当地机构,以及更广泛的社区。在当地机构,生物库通过开放获取包含个人基因型和丰富临床数据的最先进资源,使遗传研究民主化。密歇根大学(UM)的研究人员必须获得机构审查委员会对拟议项目的批准,但MGI数据可以免费使用。此外,UM研究人员还获得免费的HIPAA安全计算环境的支持,以存储和分析数据以及遗传分析支持。这种对大规模、多用途队列的公平访问以及集中的QC有可能大大加快研究工作。它特别有利于那些可能缺乏资金招募自己的队列并收集遗传和表型数据的初级研究人员此外,该资源鼓励遗传学经验有限的研究人员从事遗传学研究,而无需对他们不熟悉的数据进行收集和执行QC的艰巨任务。单一卫生系统生物库的好处延伸到当地机构以外的研究人员,尽管个人层面的数据访问通常仅限于机构内的研究人员。例如,我们通过一个交互式PheWeb网站提供了对本文中报告的所有GWAS汇总统计数据的访问。下载MGI摘要8Cell Genomics3,100257,2023会开放获取文章表2.MGI Freeze 3 GWAS中MAF>1% SNP之间的前30个最强关联染色体位置等位基因等位基因2频率性状描述(phecode)病例/对照对数让步p值相关GWAS目录引用rs6025; chr1:169,549,811C/T0.0282原发性高凝国家(286.81)727/43,8266.412.81e-157静脉血栓栓塞20–––高凝状态(286.8)755/43,8266.131.19e-153––––凝血缺陷(286)2,693/43,8262.031.80e-83––––其他和未特指凝血缺陷(286.7)1,942/43,8261.866.73e-50––––先天不足其他凝血因子,包括因子VII(286.12)94/43,82611.125.24e-39––––其他静脉栓塞和血栓形成(452)4,201/36,9300.981.82e-36––––深静脉血栓形成(452.2)3,162/36,9301.103.01e-34血栓形成21rs72660908; chr1:25,257,119C/G0.3856妊娠期恒河猴同种免疫(654.2)145/26,3482.251.40e-54血蛋白水平22rs4148325; chr2:233,764,663C/T0.3272胆红素排泄障碍(277.4)321/48,8301.846.00e-82胆红素水平23rs143260331; chr 4:110,762,205T/C0.1226房颤(427.21)4,825/31,0600.491.17e-37心房颤动24a–––房颤和扑动(427.2)4,978/31,0600.482.42e-37心房颤动/心房扑动25,ars1800562; chr6:26,092,913G/A0.0602铁代谢紊乱(275.1)201/47,3214.331.07e-51血红蛋白26rs185937162; chr6:31,357,491T/G0.0428强直性脊柱炎(715.2)190/35,7934.342.92e-35强直性脊柱炎27,ars2040410; chr6:32,634,921C/T0.1260乳糜泻(557.1)407/37,2361.635.91e-39乳糜泻28,ars9273364; chr6:32,658,525T/G0.27691型糖尿病(250.1)2,266/36,6310.804.23e-106药物用途:药物用于糖尿病29–––2型糖尿病眼科表现(250.23)1,522/36,6310.541.32e-34–rs9273368; chr6:32,658,698G/A0.27131型糖尿病眼科表现(250.13)760/36,6311.412.91e-101隐匿性自身免疫糖尿病与1型糖尿病30–––1型糖尿病肾脏表现(250.12)509/36,6311.554.02e-80––––1型糖尿病神经系统表现(250.14)559/36,6311.436.99e-76––––1型糖尿病酮症酸中毒(250.11)205/36,6311.751.23e-40–rs1794269; chr6:32,706,117C/T0.3760糖尿病视网膜病变(250.7)1,544/43,8490.604.53e-522型糖尿病31,a–––胰岛素泵使用者(250.3)3,155/36,6310.371.04e-39–rs12203592; chr6:396,321C/T0.1616其他非上皮皮肤癌(172.2)6,627/41,8960.361.83e-38基底细胞癌32–––皮肤癌(172)8,228/41,8960.32 1.65 E-36(接下页)Cell Genomics3,100257,2023年2月8日9会开放获取文章表2. 继续染色体位置等位基因等位基因2频率性状描述(phecode)病例/对照对数让步p值相关GWAS目录引用–––基底细胞癌(172.21)3,509/41,8960.472.36e-36–rs113993960; chr7:117,559,590ATCT/A 0.0146囊性纤维化(499)97/51,35818.909.80e-49肺功能:FEV1/FVC33,brs28929474; chr14:94,378,610C/T0.0179α-1-抗胰蛋白酶缺陷(270.34)60/48,88721.051.71e-52血清白蛋白水平rs1421085; chr16:53,767,042T/C0.4156病态肥胖(278.11)7,255/32,0740.251.65e-36体重指数33rs3747207; chr22:43,928,975G/A0.2296其他慢性非酒精性肝病(571.5)2,973/41,0060.522.95e-54高浓度酒精时丙氨酸摄入量35–––慢性肝病和肝硬化(571)3,150/41,0060.507.98e-53–GWAS对1,712个phecode性状进行,其中在51,583个MGI样本中至少有20个病例,这些MGI样本具有遗传推断的欧洲血统,跨越5180万个SNP,MAF>0.01%,插补得分Rsq>0.3。相关的GWAS目录引用列提供了在GWAS目录中针对MGI中所指示的SNP处的相关性状鉴定的表GWAS目录关联在所示SNP的50kb内。bGWAS目录关联在指定SNP的1 Mb内。通过数据使用协议,外部调查人员可以获得统计数据(参见STAR方法中的资源可用性)。最重要的是,为单一卫生系统生物库生成的数据通过纳入元分析和联盟而使更广泛的社区受益。值得注意的是,在全球生物库荟萃分析的200多万参与者中,近四分之一来自卫生系统生物库。37随着生物库数量的不断增加,它们仍将是推动基因发现的大规模GWAS荟萃分析的主要贡献者。因此,了解单个生物库的独特特征非常重要。在这里,我们已经表明,在一个单一的卫生系统内招募的生物库可以战略性地招募足够大的样本量进行强大的遗传分析,并提供了一个宝贵的多用途的机构资源,是大型国家生物库项目的补充。预计2023年的样本量将达到100,000名参与者,我们预计MGI将在UM和更广泛的遗传学界的未来研究中发挥重要作用该研究我们的分析揭示了MGI和类似设计的单一卫生系统生物库的一些局限性。这些生物库可能会因各自卫生系统之外发生的事件而导致参与者的健康史存在参与者随访时间的双峰分布表明,MGI是一个混合体的长期用户的卫生系统与漫长的随访时间和新的患者到密歇根州医学随访时间不到一年。随访时间短的参与者可能是从不同的卫生系统接受初级保健的人,并且在他们参加MGI的外科手术期间第一次也可能是唯一一次使用密歇根医学。我们发现随访时间越长的患者,尽管患者年龄在整个随访时间内相对一致。尽管年龄相似,但随访时间较长的参与者可能会有更多的健康问题。一个更合理的解释是,随访时间较短的参与者是在UM接受临时专业护理的系统外登记者,因此在密歇根医学EHR中缺失了他们的病史。对于这些参与者,我们可能将其错误地分类为密歇根医学EHR中缺失诊断的疾病结果的对照。单一卫生系统设计的另一个限制是,生物库的人口统计数据自然反映了卫生系统所服务的在MGI的情况下,队列主要来自周围的安娜堡社区,因此相对于密歇根州和美国的人口而言,欧洲血统的个人占了很大比例此外,MGI队列本身在年龄、性别、种族、民族和社会经济地位方面的多样性低于Michigan Medicine的总体临床人群38少数群体个人代表性不足尤其可能导致不可普遍化的结果,并加剧现有的卫生不公平现象。39、40显然需要在现行征聘战略所能达到的范围之外,提高代表性不足人口的入学率。为了满足这一需求,MGI正在启动招募工作,利用少数民族人群的流行病学研究和使用密歇根州医疗保健患者门户网站的有针对性的招募鉴于单一卫生系统生物库之间的招募策略存在重大差异,需要进行仔细分析,以评估生物库的独特局限性和盲点单一卫生系统生物库的局限性强调了大型国家生物库在医学和公共卫生研究中的重要性。除了这些生物库提供的大样本量(这对于收集非常罕见疾病的病例至关重要)之外,基于人群的更广泛地理和人口部分的招募增加了生物库的多样性。10Cell Genomics3,100257,2023会开放获取文章此外,通过合并来自多个来源的健康史,可以潜在地解决来自各个卫生系统的健康记录的差距。最后,从EHR发展表型需要理解密集的、不完善的数据。丰富的可用临床数据意味着对任何感兴趣的表型都没有明确的定义。事实上,基于EHR的表型分析的主要优势之一是能够微调病例定义。在本文中,我们使用了PheWAS软件,该软件提供了一种方便的方法来将粒度ICD代码映射到phecode特征。该技术的优点是在生物库中的所有个体中快速且自动地生成表型组。鉴于ICD编码的普遍性,PheWAS软件为跨生物库的一致和协调的大规模表型分析提供了一种现实的策略。因此,本文中的表型定义是明确定义的,重要的是,可以在其他生物库中复制我们最强的关联结果复制了已知的信号,表明phecodes是在表型组规模上进行广泛表型分型的有效工具。然而,phecode映射不够精确,无法以完美的灵敏度正确识别病例或对照Phecode系统还忽略了临床数据源,如实验室结果、医生记录和用药史,这些数据源可为阐明真实疾病状态提供信息。为了最大化功效并获得特定性状的无偏效应大小估计值,可能需要仔细地从EHR数据中提取所有相关信息并应用更复杂的经验证的电子表型算法,例如,如表型知识库(https://phekb.org)所述。STAR+方法本文件的在线版本提供了详细的方法,包括以下内容:d关键资源表d资源可用性B电极导线触点B材料供应情况B数据和代码可用性d实验模型和子系统B人类受试者d方法样本B基因数据B遗传质量控制程序B临床表型数据B基因分析英国生物库中的BPhecodes补充信息补 充 信 息 可 以 在 www.example.com 上 找 到 https://doi.org/10.1016/j 。xgen.2023.100257。致谢作者感谢MGI参与者,UM的Precision Health,UM医学院中央生物储存库和UM高级基因组核心提供数据和标本存储,管理,处理,基因型数据的收集、估算和管理,以支持本出版物中报道的研究。MGI通过UM的精准健康计划资助。S.Z. 通过R01 HG011031资助我们感谢全球生物库荟萃分析倡议的内部评审员Ruth Johnson和Ben Neale以及匿名评审员提供的宝贵反馈,这些反馈改进并澄清了手稿。作者贡献概念化,C.M.B.S.K.,和G.R.A.;数据管理,M.Z.,L.G. F 美联社,B.V.,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功