没有合适的资源?快使用搜索试试~ 我知道了~
文章加州大学洛杉矶分校ATLAS社区健康倡议:在多样化的生物库中促进精准健康研究图形摘要亮点加州大学洛杉矶分校ATLAS社区健康计划旨在对15万名参与者d电子健康记录信息与参与者的基因型数据相关联d5个主要的大陆遗传祖先群体在ATLASdGWAS和PheWAS概括了已知的相关性,并提供了对疾病风险的作者露丝·约翰逊,丁毅,Arjun Bhattacharya,.放大图片作者:DanielH.博格丹?帕萨纽克?格施温德通信ruthjohnson@g.ucla.edu(R.J.),pasaniuc@g.ucla.edu(B.P.)简言之Johnson等人描述了UCLA ATLAS社区健康计划(ATLAS),该计划旨在从整个UCLA卫生系统招募15万名参与者,并创建与电子健康记录相关联的最大基因组数据库之一。他们描述了ATLAS队列广泛的祖先多样性,并证明了其作为理解疾病遗传基础的生物医学资源的实用性。Johnson等人,2023,细胞基因组学3,1002432023年1月11日-2022年作者。https://doi.org/10.1016/j.xgen.2022.100243会会开放获取文章UCLA ATLAS社区健康倡议:在多样化的生物库中促进精准健康研究1、丁毅、2、3、2、6、7、8、9、10、11、12、13、14Geschwind,4,6,7和Bogdan Pasaniuc2,3,4,5,6,*1计算机科学系,加州大学洛杉矶分校,洛杉矶,CA 90095,美国2生物信息学跨部门项目,加州大学洛杉矶分校,洛杉矶,CA 90095,美国3病理学和实验室医学系,David Geffen医学院,加州大学洛杉矶分校,洛杉矶,CA 90095,美国4人类遗传学系,大卫格芬医学院,加利福尼亚大学洛杉矶分校,洛杉矶,CA 90095,美国5计算医学系,大卫格芬医学院,加利福尼亚大学洛杉矶分校,洛杉矶,CA 90095,美国6加州大学洛杉矶分校精密健康研究所,洛杉矶,CA 90095,美国7美国加州大学洛杉矶分校David Geffen医学院神经病学系神经遗传学项目,洛杉矶,CA 900958加州大学洛杉矶分校大卫格芬医学院定量和计算生物科学研究所,洛杉矶,CA 90095,美国9引线触点* 通信:ruthjohnson@g.ucla.edu(R.J.),pasaniuc@g.ucla.edu(B.P.)https://doi.org/10.1016/j.xgen.2022.100243总结加州大学洛杉矶分校ATLAS社区健康计划(ATLAS)的初始目标是从整个加州大学洛杉矶分校卫生系统招募15万名参与者,目标是创建一个基因组数据库,以加速加州的精准这一举措包括嵌入加州大学洛杉矶分校卫生系统的生物库,其中包括与电子健康记录(EHR)相关的去识别基因组数据。从2020年9月开始的第一次冻结数据包含27,987个基因型样本,这些样本被估算为整个基因组中的790万个SNP,并与UCLAHealth的EHR的去识别版本相关联在这里,我们描述了基因型数据的集中存储库,并提供了工具和管道,以在广泛的EHR衍生表型和遗传祖先组中进行基因组和表我们通过对7个研究充分的性状进行分析,并概括了许多以前的遗传和表型关联,证明了这种资源的实用性。介绍加州大学洛杉矶分校ATLAS社区健康倡议(ATLAS),因其位于“洛杉矶”而得名,旨在招募来自加州大学洛杉矶分校卫生系统的每个生物样本都通过UCLA数据发现存储库(DDR)与来自UCLA Health的患者电子健康记录(EHR)相关联参与者从位于大洛杉矶地区的18个UCLA健康医疗中心,实验室和诊所招募。参与者观看一个简短的视频,概述了该倡议的目标,并记录了他们是否愿意同意加入该倡议的选择。1,2在任何UCLA Health实验室进行的常规临床实验室工作期间收集生物样品,然后使用定制的Illumina全球筛选阵列(GSA)3进行基因分型(参见STAR方法)。生物样本和EHR信息都是去识别的,以保护患者隐私。截至2021年9月,该计划已通过知情同意程序招募了90,400名参与者,并成功对39,300份样本进行了基因分型。关于生物库和同意过程的全面详细信息在先前的工作中进行了描述。1,2在这项工作中,我们描述了从医疗记录中提取基因型和表型的质量控制管道,以进行大规模的基因型和表型扫描。为了建立基因分型质量控制(QC)管道,我们首次冻结了截至9月收集和处理的基因型和表型数据2020年,A总共N = 27,987个样本。UCLA Health研究人群加州大学洛杉矶分校卫生系统包括2家医院和210个主要位于大洛杉矶地区的初级和专科门诊点。总的来说,UCLA卫生系统Cell Genomics3,100243,January 11,2023? 2022作者。1这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。会开放获取文章2Cell Genomics3,100243,2023服务于洛杉矶县约5%的人口。2013年,加州大学洛杉矶分校卫生系统采用了电子形式的健康记录,记录了各种临床此信息的一个版本已被去识别并批准用于研究目的。去识别化过程删除了一些临床数据,包括姓名、家庭关系、地理信息和确切日期,以及年龄极端(>90岁)的确切年龄。参与者的平均年龄(定义为截至2021年9月电子健康记录中记录的参与者我们使用phecodes,一种映射诊断代码的编码系统(即,ICD-9和ICD-10编码)到更有临床意义的表型4以从EHR构建表型。每位参与者的独特phecode的中位数为68,而平均值为85.2(SD:65)。这种偏态平均值与存在比一般人群中的普通人更多的医疗保健互动的个体一致,这种模式在文献中得到了很好的描述。5参与者ATLAS中的大多数患者自认为是白人(61.4%)和非西班牙裔/拉丁裔(75.4%),尽管有相当比例的个体报告为亚裔( 9.67% ) 或 西 班 牙 裔 / 拉 丁 裔 、 西 班 牙 裔 或 墨 西 哥 裔(14.1%)。DDR中提供的人种/种族字段的完整列表和ATLAS人口统计学信息总结见表1。我们很遗憾,术语“白人/高加索人”是医疗记录中种族字段下的预设多项选择。科学界和医学界后来谴责这一特定术语,因为它的错误起源和历史上的种族主义影响,6 在介绍我们的分析时,我们在描述人种时省略了术语“高加索人”,仅将特定的“白人/高加索人”字段列为“白人”。此外,我们强烈反对将“高加索人”一词与种族讨论联系起来,种族是一种与生物学分离的社会结构,并强调该术语没有任何生物学含义。基因型生成和QCATLAS计划不断招募新的参与者,基因型样本批次正在滚动处理 , 每 月 分 期 处 理 , 每 批 约 1 000 个 样 本 。 在 UCLANeuroscience Genomics Core使用自定义基因分型阵列进行基因分型,该自定义基因分型阵列由GSA与GRCh37组件下的多疾病插入组3构建。从ClinVar 9中选择的一组额外的在这项工作中呈现的基因型数据的第一次冻结结合了来自15个单独批次的样品,总共产生697,023个SNP和27,987个个体。主成分分析(PCA)10用于可视化批次间的变化,未显示任何批次效应的证据(图S1)。接下来,我们将描述用于过滤低质量SNP和样本的QC管道在这项工作中,我们的目标是专注于只描述常见的遗传变异,并在样本量继续增长的情况下,将对ATLAS中罕见变异的进一步深入分析留给未来的工作。首先,我们排除了缺失率>5%的低质量SNP以及单态SNP和链模糊SNP,定义为具有A/T或C/G等位基因的那些。还移除缺失>5%的样品。我们估计的亲属关系系数使用KING 2.2.211,发现38个重复样本,357个亲子,128个一级亲属,166个二级亲属。这种程度的关系并不奇怪,因为一个家庭的成员往往参加同一个健康中心。对于重复样本集,我们删除了缺失率较高的样本。图1概述了QC流程以及过滤的SNP和个体数量。在样品和变体水平QC后,在N = 27,946个个体中保留M =673,130个基因型SNP(N = 27,291个无关个体)。在基因分型QC后,我们使用“-sex-check”功能推断生物性别我们发现,45.5%的基因型产生了男性呼叫和53.9%的女性呼叫,而0.6%的样本估计是未知的(表1)。对于推断性别未知的个体组,平均F统计量为0.27(SD:0.10)。这些个体的性别可能无法推断,因为F统计量略高于阈值。接下来,使用来自EHR的自我识别信息,我们发现45.1%的个体自我识别为男性,54.9%的个体自我识别为女性(表1)。在EHR中,此特定字段被标记为自认为男性和女性的个体的平均F统计量分别为0.96(SD:0.06)和0.06(SD:0.09)。在目前的数据中,没有任何人自我认定为其他列出的选项之一。我们还观察到,0.04%的被推断为生物学男性的个体并不像EHR报告的那样自我认同为男性。该比较是用于确定样本不匹配的常见启发式方法。然而,这种小偏差似乎并不反映系统性样本不匹配,而是可能描述了跨性别和性别不符合的13名个体。我们保留这些样本并提供适当的文件,并鼓励研究人员利用ATLAS数据根据其特定的分析标准进行进一步的性别筛选。基因分型QC的最后一步涉及对TOPMedFreeze5参考组的基因型插补,TOPMedFreeze5参考组是使用Michigan插补服务器从超过50,000个祖先不同的基因组14组装的15总体而言,大约3亿个SNP和插入或缺失(indels)被用作基因型插补的骨干。插补过程从ATLAS数据中得到总计2.3亿个插补的SNP。我们发现,具有较低次要等位基因的SNPCell Genomics3,100243,2023年1月11日3会开放获取文章表1. 总结UCLA ATLAS人口统计学Atlas哮喘COPD痛风HFIPF中风VTE样本量27,9464,7022,9271,3422,2121,1391,4022,543年龄(岁)55.655.867.166.366.365.266.560.6(十七点二)(17.5)(14.1)(13.8)(15.8)(13.6)(十五)(16.3)自报性别(%)男性45.137.852.377.259.446.352.153.3女性54.962.247.722.840.653.74846.7其他,未知,* 未指明,X00000000推断的生物学性别(%)男性45.537.751.776.258.44651.852.2女性53.960.746.522.139.751.646.345.3未知0.60.50.30.50.50.60.90.6自报人种(%)白色61.464.664.255.55961.659.961.5黑人,非裔美国人4.86.36.58.58.377.28亚洲人,亚洲印度人,中国人,菲律宾人,印度尼西亚人,日本人,韩国人,巴基斯坦人,泰国人,巴基斯坦人,台湾人,越南人,亚洲-其他9.77.77.711.87.68.68.26.5美洲印第安人,阿拉斯加原住民0.30.40.30.30.30.60.60.3夏威夷原住民、关岛人或查莫罗人、萨摩亚人、其他太平洋岛民0.30.50.20.50.50.60.40.4其他种族12.910.99.810.513.812.712.214.6未知,拒绝说明10.62.31.11.40.80.91.60.9自我报告的种族(%)非西班牙裔/拉美75.476.777.776.772.675.573.972.3西班牙裔/拉丁美洲人,古巴人,西班牙裔/西班牙裔,墨西哥人,墨西哥裔美国人,Chicano/a,波多黎各人14.113.710.710.317.115.614.718.9未知,拒绝说明10.52.31.21.50.60.81.61推断遗传祖先(%)欧洲大陆血统64.563.467.459.657.76160.457.7非洲大陆血统4.86.56.78.58.17.17.48.2混血美洲大陆血统17.817.513.914.120.61919.323东亚大陆血统8.97.17.712.47.48.17.86.1南亚大陆血统1.51.50.81.11.41.61.11混血或其他血统2.74.13.64.54.93.24.14病历长度11.613.1213.414.3413.212.613.312.6(年)(8.5)(8.5)(8.4)(8.3) (8.4)(8.1)(8.7)(8.3)唯一ICD数量86.7114.78149.4139.7164.7158.5148.1154.2代码(66.4)(76.5)(83.2)(84.1)(85.4)(81.2)(86.4)(87.4)表型数量平均值(SD)85.2114.75149.44139.7164.67158.5148.1154.2(phecodes)(65)(76.5)(83.2)(84.1)(85.4)(81.2)(86.4)(87.4)中值6897138123157151138141我们提供了根据电子健康记录和基因型数据计算的UCLA ATLAS人群的汇总统计量。结果是在ATLAS的所有N = 27,946个个体上计算的,并且在每个性状内单独计算。频率(MAF)倾向于具有较低的插补质量(r2)分数。这表明,在ATLAS内更难以准确地插补罕见SNP(图2A),这与先前的发现一致。16-推断遗传祖先ATLAS数据提供了一种独特的资源,可以在单一医疗系统内研究祖先多样的个体的基因组医学。遗传祖先信息对于许多类型的遗传学和流行病学研究是必要的,例如全基因组关联研究和多基因4Cell Genomics3,100243,2023会开放获取文章风险评分估计。19虽然EHR包含Cell Genomics3,100243,2023年1月11日5会开放获取文章删除重复个体(N=38;0.14%)无关人员:27 291人删除相关个人高达2级(N=655; 2.4%)27,94627,984删除高缺失率(N=3;0.01%)27,987人删除单态SNP(17,186;2.5%)使用TOPMed Freeze 5的插补SNP(M= 2.3亿)最终SNP:7,973,837r2> 0.90且MAF>1%(所有祖先)(男= 222 056 760; 96.5%)230,030,597663,640680,826删除高缺失率SNP(9,326;1.4%)690,152删除未映射的SNP(6,871; 1.0%)697,023个SNP个体SNP图1.基因型质量控制管道总结我们概述了基因型样本的质量控制流程,并列出了每个步骤中排除的样本(左)和SNP(右)的数量。这些概念与遗传祖先不同,后者描述的是一个人基因组的生物历史,与身份的文化方面几乎没有关系。20,21先前的研究表明,自我认定的种族/民族和遗传祖先是相关的22,23;然而,从这两个概念构建的人群并不相似,并捕获不同的信息。关于ATLAS数据中祖先作用的更深入讨论可以在以前的工作中找到。24相反,我们使用PCA来识别ATLAS中的种群结构,仅从遗传信息作为校正的手段。用于大规模基因型和表型关联研究中的遗传分层。PCA产生观察到的遗传变异的视觉总结,然后可以用来描述样本之间的种群结构。我们对由来自ATLAS的个体与来自1000个基因组计划参考小组25的个体合并组成的合并数据集进行了PCA(参见STAR方法)。该参考组由来自已知的欧洲、非洲、混合美洲、东亚和南亚血统的个体的基因型组成。在将PC投影到二维空间中之后,我们使用来自1000个基因组的标记样本来定义ATLAS中对应于每个大陆祖先组的个体的聚类边界(图2B和S2)。通过在PC空间中比较1000个基因组参考组样品与ATLAS样品的重叠,目视确定聚类阈值前两个PC反映了欧洲、非洲和东亚血统之间的差异(图S3)。PC 2和3可以大致描述具有混合美国血统的个体(图S4),而PC 4和5可以聚集具有南亚血统的个体(图S5)。属于多个祖先群体或不能被归类为任何定义的祖先群体的个体被标记为我们发现,64.5%(N = 18,023)的个体被认为是欧洲血统;4.8%(N = 1,340)的非洲血统血统; 17.8%(N = 4,930)的美国混血血统; 8.9%(N = 2,495)的东亚洲祖先;和1.5%(N = 402)为南亚血统;2.7%(N = 756)被描述为正如预期的那样,推断的祖先聚类与EHR中提供的SIRE信息基本一致:90.5%自认为是白人的欧洲血统群体中的个体占92.1%;自认为是黑人或非裔美国人的非洲血统群体中的个体占92.1%;自认为是亚洲人种的东亚血统群体中的个体占90.4%;自认为是西班牙裔或拉丁裔、波多黎各人、墨西哥人或古巴人的混合美国血统群体中的个体占77.6%(表S1)。我们还观察到,大多数自我认定为非裔美国人的个体倾向于落在非洲和欧洲血统集群之间的渐变群中,这表明遗传血统,特别是混合人群的遗传血统,往往是连续的,而不是离散的分类。这些分析说明了自我识别信息和推断的遗传祖先之间的配对不是一对一的,进一步强调了这两个概念之间的重要区别。通过phecode系统进行基于EHR的表型分析在这项工作中,我们利用了来自EHR表型的phecodes形式,ICD 编码 映射到 一个 折叠的 一组更 具临床 描述性 的分 组。4Phecodes允许对大量个体的多种临床表型进行系统表型分析,并在多个机构合作时提供一定程度的一致性。此外,phecode映射提供对照排除phecode的列表,其通常排除与病例phecode非常相似但代表不同病症的phecode。使用ICD-9和ICD-10编码,我们使用先前定义的ICD-phecode映射(Phecode Map 1.2)构建了1,866个独特的phecode,26导致二元表型,其中如果特定的phecode至少6Cell Genomics3,100243,2023会开放获取文章图2. 来自ATLAS的基因分型和插补数据具有高质量(A) 2.3亿个插补的SNP按次要等位基因频率分层SNPs通过估算的r2分数进行分组,然后我们报告应用r2阈值后剩余SNPs的百分比。(B) ATLAS中无关个体(N= 27,291)的预测遗传PC 1和2为灰色。来自1000个基因组的样本由大陆遗传祖先阴影:欧洲(EUR),非洲(AFR),混合美洲(AMR),东亚(EAS)和南亚(SAS)。(C) ATLAS中AFR、AMR、EAS和EUR大陆血统组痛风GWAS的QQ图一 次 在 他 们 的 医 疗 记 录 中 。 控 件 被 定 义 为 没 有 出 现 casephecode的个体。 一个额外的,更严格的控制定义也限制了个人与任何phecode从案件phecode的控制排除列表中出现。这个更严格的定义被用来在随后的全基因组关联研究(GWAS)分析中。在ATLAS的所有个体中(N = 27,946),超过99%的个体至少 有 一 个 phecode , 30.8% 的 个 体 有 100 个 以 上 不 同 的phecode。没有任何phecodes的个人可能是那些可能通过UCLAHealth进行实验室检查,但在不同机构寻求后续护理的人。在ATLAS中,phecodes的分布在不同的人口统计学群体中有所不同。年龄较大的患者往往有更多的phecodes,18岁及以下的个体平均有57.38(SD:49.80)个独特的phecodes,64岁以上的个体平均有109.98(SD:70.34)个独特的phecodes。 我们将随后的遗传分析限制在ATLAS中的>100个病例,导致总共1,330个phecode用于下游关联分析。为了进一步证明phecodes与遗传数据相结合的潜力,我们重点研究了一组7个经过充分研究的特征,以说明EHR相关生物库的能力:哮喘,慢性阻塞性肺病(COPD),痛风,心力衰竭(HF),特发性肺纤维化(IPF),脑动脉闭塞伴脑梗死(中风)和静脉血栓栓塞(VTE)。描述这7种性状的相应phecode和ICD代码的完整列表见表S2。如图3所示,某些phecodes的患病率在性别,年龄和遗传祖先之间存在差异。例如,与女性相比,痛风在男性中以高得多的频率被观察到(76.4%病例),并且倾向于在64岁以上的个体中被诊断(59.8%病例)。我们还观察到非洲血统组中HF病例的高比例(freqAll= 0.044,freqAFR=0.079; p = 2.43 10- 6) 和东 亚 血 统组 中 痛 风病 例 的 高比 例(freqAll= 0.048,freqEAS= 0.066; p = 2.4 3 10 - 6)。8.0310-4)与所有个体的患病率相比,在ATLAS中。结果7种EHR衍生表型和4个祖先群体的GWAS为了证明与基于EHR的表型相关的祖先多样性遗传数据的效用,我们对ATLAS中4个最大的大陆遗传祖先组中的每个组中的7个充分研究的性状进行了GWAS,总共产生了28个分析(数据S1)。由于目前的样本量较低,排除了南亚血统组内的分析我们使用SAIGE进行关联检验,27这是一种广义混合模型方法,可解释不平衡的病例对照比以及样本相关性。鉴于许多疾病表型存在病例-对照失衡,例如欧洲血统组内的痛风(病例N =810,对照N =15,831)和IPF(病例 N =700,对照N=15,941),SAIGE是ATLAS中关联检验的有利推断方法。自我识别的性别(如EHR中报告的)和当前年龄(截至2021年9月),以及年龄 * 年龄和年龄 * 性别相互作用项被用作协变量。在每个遗传祖先组中,我们重新进行了PCA,并利用前10个PC作为额外的协变量,以进一步解释精细规模的群体结构。总的来说,GWAS关联被很好地校准,并且没有表现出强有力的检验统计膨胀的证据,如图2C所示(所有28个分析的平均值:IGC=0.98,SD(IGC)=0.01)。 我们在欧洲血统组(痛风、HF、VTE)中发现了26个全基因组显著SNP(p< 5 3 10 -8),在非洲血统组(哮喘)中发现了1个,在混合美国血统组(痛风、中风)中发现了8个,在所有分析中总共发现了35个显著SNP(图4A;表S3)。作为一个强调该数据集作为扩展对不同疾病的遗传理解这种特殊的关联在以前的任何痛风关联研究中都没有被发现。我们在后续版本的ATLAS数据中复制了AMR组内的这种关联,增加了样本量(NAMR= 6,073例)。24Cell Genomics3,100243,2023年1月11日7会开放获取文章CB图3.ATLAS中不同人口统计学组的表型分布我们显示了7个特征在(A)性别,(B)年龄组和(C)推断的遗传祖先中的分布。完整表型描述见表S2。性别信息来源于EHR。ATLAS中该SNP的全表型关联研究(PheWAS)也揭示了AMR人群中与“痛风”和“痛风和其他晶体性关节病”表型的关联,为痛风风险人群之间遗传结构的潜在差异提供了证据。接下来,我们将ATLAS中确定的相关区域与先前研究中报告的区域进行了比较,特别是GWAS目录28中列出的区域以及通过全球生物库荟萃分析倡议(GBMI)进行的荟萃分析。为了构建多项研究中可比的基因座,我们在每个全基因组显著关联周围创建了1 Mb窗口,并比较了研究中特定基因座的重叠(参见STAR方法)。使用这个过程,我们在ATLAS中发现了10个显著相关的区域,28个GWAS分析。在这10个地区中,GWAS目录和GBMI荟萃分析中也报告了7个地区(图4B和S6)。为了避免偏倚我们的结果,我们使用了在所有其他贡献生物库中计算的GBMI汇总统计量,但在荟萃分析计算中省略了ATLAS数据。最后,当比较ATLAS中4个祖先群体中7个性状的单独分析时,我们没有发现多个群体中发生任何显著关联,尽管这一观察结果可能是由于当前样本量有限。为了进一步评估ATLAS中估计的遗传效应与更成熟的EHR连锁生物库中具有更大样本量的遗传效应的一致性,我们比较了ATLAS和BioVU30在欧洲血统组中7个性状的GWAS效应量。考虑到两项研究中与每个性状相关的名义上显著的SNP,p 13 10-6,我们发现BioVU和ATLAS的效应大小之间存在强烈的显著正相关性(Pearson相关性= 0.92,p 2.23 10- 16)(图4C)。尽管BioVU研究的关联统计量是使用PLINK 2.012计算的,ATLAS的关联统计量是使用SAIGE计算的,但令人鼓舞的是,尽管存在差异,我们仍观察到正相关性关联测试方法。如图4C所示,我们看到ATLAS中的效应略微降低至零值,尽管这可能反映了ATLAS中的样本量小于BioVU。PheWASEHR相关生物库还提供了通过PheWAS4将临床表型组内的推定关联置于背景中的机会,并为验证表型QC提供了有价值的步骤。ATLAS具有来自未确定队列的广泛且多样的临床表型集,这对于执行无偏倚的全表型我们将我们的分析限制在ATLAS中超过100例的phecodes,导致总共1,330个phecodes描述了UCLA的临床表型。为了证明这组不同的临床表型的效用,我们在rs6025(F5基因内的错义变体)处进行了PheWAS。该最高变异是从欧洲血统人群VTE的ATLAS GWAS中鉴定的,并已在许多既往研究中记录。31-34这表明,尽管许多表型的样本量适中,但我们可以概括与预期疾病生物学一致的发现,使PheWAS成为研究临床特征之间共享遗传结构的有价值工具我们还提供了一个Web浏览器,其中包含来自ATLAS的PheWAS关联作为公众资源(https://atlas-phewas.mednet.ucla.edu/)。生物样本库贡献ATLAS中代表的祖先多样性在精确医学中使用的遗传变异编目中起着关键作用一8Cell Genomics3,100243,2023会开放获取文章27人GWAS目录6人(7.3%)GBMI荟萃分析(排除UCLA)46(56.1%)Atlas3人一B C痛风(欧元)图4.跨7个性状和4个大陆祖先群体的GWAS概括了已知的关联(A) 我们提供了ATLAS中欧元、AFR、AMR和EAS大陆祖先群体痛风GWAS的曼哈顿图红色虚线表示全基因组显著性(p 53 10- 8)。(B) 我们显示了在欧元祖先组内从ATLAS计算的痛风全基因组显著区域的重叠,GWAS目录中列出的先前关联,以及GBMI荟萃分析中确定的关联。(C) 与ATLAS或BioVU中p 13 10- 6处的每个性状相关的SNP的GWAS效应大小的散点图。点按特性着色红线显示通过原点的45度线,蓝线显示这些点的估计趋势(Pearson相关系数= 0.92)。努力尽管起步较晚,但ATLAS已经为许多多祖先疾病图谱计划做出了贡献,例如GBMI29和COVID-19宿主遗传学计划35(数据冻结5和7)。尽管ATLAS约占GBMI荟萃分析总样本量的1%(约260万GBMI总样本中的N = 27,946份样本),但我们观察到ATLAS中不同祖先人群的样本对GBMI的贡献很大。例如,ATLAS con-与GBMI的总样本量相比,非洲(AFR; 7个性状的比例范围:3%-14%)和AMR血统(22%-32%)样本的比例更大除GBMI外,ATLAS还占COVID-19宿主遗传学倡议初步分析中使用的AMR样本的73.4%。来自ATLAS的AFR和AMR样本的这种富集可以促进这些历史上代表性不足的Cell Genomics3,100243,2023年1月11日9会开放获取文章表2. UCLA ATLAS为全球荟萃分析贡献了相当大比例的非欧洲血统样本性状缩写血统UCLA案例GBMI案例富集比哮喘哮喘EUR3,051101,3111.04AFR2895,0511.97AMR7604,0696.42EAS30818,5490.57慢性阻塞性肺疾病COPDEUR2,00551,6441.14AFR1871,9782.77AMR3841,5037.49EAS20819,0440.32痛风痛风EUR81020,7021.16AFR1051,3122.38AMR1795579.55EAS15510,4250.44心力衰竭HFEUR1,30128,7951.51AFR1741,3674.26AMR4231,17012.11EAS14412,6650.38特发性肺纤维化IPFEUR7005,2291AFR761693.37AMR2043194.79EAS891,2100.55脑动脉闭塞伴脑梗死中风EUR85515,8422.48AFR1001,1613.96AMR24890312.64EAS10523,3450.21静脉血栓栓塞VTEEUR1,50315,9701.11AFR1951,4661.57AMR5431,0376.18EAS1321938.07我们显示了ATLAS的7个性状和整个GBMI研究的病例样本量,按遗传祖先分层最后一列报告了ATLAS中祖先特异性样本比例与GBMI荟萃分析总样本比例的比值人口和扩大不同祖先的遗传理解。讨论ATLAS生物库为生物医学界提供了宝贵的资源,并提供了许多未来的机会。在未来,我们的目标是执行表型组成的EHR元素,除了诊断代码,如实验室值,药物和临床笔记。我们还计划整合其他类型的基因组信息,如外显子组测序和甲基化数据。此外,尽管该分析仅关注于描述常见变异,但随着样本量的持续增长,我们计划 研究ATLAS 中的罕见 变异。我们希望 在GWAS和PheWAS中包含罕见变体可以增加我们检测新关联的能力,并探索更多的祖先特异性效应。我们还希望利用分型的ClinVar变体来检查遗传祖先在致病性和可能致病性变体中的作用。此外,我们计划创建一个目录,多基因风险评分(PRS)权重的EHR衍生表型在每个遗传祖先组,创造了最大的和最祖先多样性的PRS资源之一。该研究虽然加州大学洛杉矶分校ATLAS社区健康倡议仍在不断发展和发展,我们提出的分析有固有的局限性。首先,我们受到当前样本量的极大限制,这导致一些关联研究缺乏效力,例如那些罕见变异的研究。样本量的缺乏在ATLAS中的非欧洲血统群体中最为明显。特别是,由于缺乏足够的样本量,不得不省略南亚血统组内的下游分析在N = 150,000个体的目标样本量(在所有ATLAS中)下,我们希望发现常见和罕见变体的新关联。其次,在目前的EHR中,我们缺乏描述个人社会经济地位的信息。这一信息对于解开真正的遗传效应与环境诱导的遗传效应的关系至关重要。第三,这项研究从ICD-9和ICD-10编码中推导出表型,10Cell Genomics3,100243,2023会开放获取文章是为了计费而设计的,而不是代表正式的诊断。phecodes的创建旨在减轻与直接使用ICD代码相关的许多缺点,但不能完全解决与计费代码分配相关的固有不精确性。例如,不同部门的不同计费做法可能会导致表型不一致。在这项工作中,我们对一组研究充分的疾病进行了广泛的遗传分析,但对于更深入的疾病特异性研究,我们建议在账单代码之外构建更详细的表型。最后,虽然ATLAS提供了一个机会,探索祖先的多样性,我们的分析也受到限制的可用性和选择的参考面板时,推断遗传祖先。虽然1000个基因组参考小组包括5个主要的大陆祖先群体,但在许多地区,包括中东和土著美洲原住民群体,都没有值得注意的样本。这可能会抑制我们在ATLAS中对这些个体进行遗传祖先推断的能力,导致他们被排除在一些下游祖先分层分析之外。在未来的工作中,我们希望包括更多的参考面板人口,以更好地描述遗传多样性的ATLAS。STAR方法本文件的在线版本提供了详细的方法,包括以下内容:d关键资源表d资源可用性B电极导线触点B材料供应情况B数据和代码可用性d方法样本B研究人群B招募和同意B基因型生成和质量控制B插补B遗传祖先推断B临床表型数据B全基因组关联研究BGWAS关联与先前工作的比较B全表型关联研究d量化和统计分析补充信息补 充 信 息 可 以 在 www.example.com 上 找 到 https://doi.org/10.1016/j 。xgen.2022.100243。致谢我们衷心感谢精密健康研究所(IPH)和参与UCLA ATLAS社区健康倡议的患者提供的资源。UCLA ATLAS社区健康倡议与UCLA ATLAS Precision HealthBiobank合作是IPH的一项计划,该计划指导并支持与David Geffen医学院,UCLA CTSI和UCLA Health合作参与UCLA患者的生物样本样本库和基因分型。此外,我们非常感谢Brett Vanderwerff,Sine 'ad Chapman和BenjaminNeale的深刻反馈以及GBMI的所有成员。阿特拉斯社区健康倡议得到了加州大学洛杉矶分校健康,大卫格芬医学院和加州大学洛杉矶分校临床和转化科学研究所(UL1TR001881)的资助。A.C.由NIH-T32HG 002536和NSF-DGE-1829071资助。R. J.由NSF -DGE-1829071资助。作者贡献由B.P.进行概念化,R.J.和A.B.方法学由R.J.进行,Y.D.,A.B.和ac软件是由R.J. Y.D.,和S.K.形式分析由R.J.进行,Y.D.,和A.B.数据整理由A.C.进行。R.J.和A.B.完成了初稿的撰写。B.P.对草案进行了审查和编辑还有D.H.G.项目管理由B.P.执行C. L.,和DHG所有作者均阅读并批准了最终手稿。申报利益作者声明没有竞争利益。包容性和多样性我们支持包容,多样和公平的研究行为。投稿时间:2022 -修订日期:2022受理时间:2022发布时间:2023引用1. Lajonchere角,Naeim,A.,干燥,S.,Wenger,N.,Elashoff,D.,Vangala,S.,Petruse,A.,Ariannejad,M.,马扎尔角,约翰森湖,等人(2021年)。一个集成的,可扩展的,电子视频同意过程,以推动精确的健康研究:大型,基于人群的,队列实施和可扩展性研究。J. Med.Internet Res. 23,e31121。2. Naeim,A.,干燥,S.,Elashoff,D.,Xie,Z.,Petruse,A.,马扎尔角,约翰森湖,Werre,G.,Lajonchere角,和Wenger,N.(2021年)。电子视频支持精确健康研究:试点队列研究。JMIR表格。 Res. 5,e29123。3. Infinium Global Screening Array-24试剂盒。4. 丹尼JC里奇医学博士巴斯福德,文学硕士,Pulley,J.M.,巴斯塔拉什湖Brown-Gentry,K.,Wang,D.,中国科学院,Masys,D.R.,Roden,D.M.,还有克劳福德哥伦比亚特区(2010年)。PheWAS:证明全表型扫描发现基因-疾病关联的可行性生物信息学26,1205-1210。5. 使用电子病历数据库中的管理数据对高医疗保健利用者群体的表征|BMC健康服务Res.|全文https://bmchealthservres.biomedcentral.com/articles/10 。 1186/s12913-019-4239-2。6. Flanagin,A.,Frey,T.,Christiansen,S.L.,和Bauchner,H.(2021年)。医学和科学期刊中的种族和民族报道:征求意见。JAMA 325,1049-1052.7. Popejoy,A.B.(2021年)。太多的科学家仍然说高加索人(英国:自然。Publ. Group)。8. M. Pollock,ed.(2008).《日常反种族主义:在学校里真正了解种族》,第10757版。9. Landrum,M.J.,Lee,J.M.,Benson,M.,布朗,G.R.,Chao,C.,Chitipiralla, S.,Gu ,B.,Hart ,J
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功