没有合适的资源?快使用搜索试试~ 我知道了~
文章全球生物库荟萃分析倡议:为人类疾病的遗传发现提供图形摘要亮点dGBMI是一个由24个生物库组成的协作网络,拥有超过220万人d全球不同生物库中的全球水资源评估系统可以成功整合d生物库荟萃分析确定了14个终点的317个已知和183个新位点dGBMI公开发布生物库Meta分析作者魏舟,金井正弘,关汉唔,放大图片作者:Mark J. Daly,Benjamin M. Neale通信wzhou@broadinstitute.org(W.Z.),cristen@umich.edu(C.J.W.),mjdaly@broadinstitute.org(M.J.D.),bneale@broadinstitute.org(B.M.N.)简言之Zhou等人介绍全球生物库荟萃分析倡议(GBMI)的旗舰项目他们展示了全球23个生物库的合作努力的实质性好处,以更大的样本量和增加的祖先多样性推进人类疾病的遗传发现,并突出了生物库Meta分析中的问题和挑战。Zhou等人,2022,细胞基因组学2,1001922022年10月12日<$2022https://doi.org/10.1016/j.xgen.2022.100192会会开放获取文章全球生物库荟萃分析倡议:为人类疾病的基因发现提供动力周伟,1,2,3,92,金井正弘,1,2,3,4,5吴,6Humaira Rasheed,7,8,9Kristin Tsuo,1,2,3Jibril B. Hirbo,10,11Ying Wang,1,2,3Arjun Bhattacharya,12Huiling Zhao,9Shinichi Namba,5Ida Surakka,13Brooke N. 沃尔福德6,7瓦莱里娅·洛·法鲁,14,15,16埃斯特班A.Lopera-Maya,17岁的Kristi Laüll,18岁的Marie-Julie Fave',19岁的JuliaJ.Partanen,20岁锡纳阿德湾查普曼,2,3朱哈卡尔贾莱宁,1,2,3,20米贾库尔基,1,2,3,20穆塔安巴马沙,1,2,3,20本M。布朗普顿,7,21,22萨米尔查万,23陈子婷,24米歇尔达亚,23丁毅,12,25颜陈A。Feng,26岁Lindsay A. Guare,27Christopher R. Gignoux,23Sarah E.格雷厄姆,13惠特尼E。Hornsby,13Nathan Ingold,28,29Said I. 伊斯梅尔,30岁Ruth Johnson,31,12Triin Laisk,18Kuang Lin,32Jun Lv,33Iona Y。米尔伍德,32,34索尼娅莫雷诺格劳,35南基松,36普利特帕尔塔,18,20安妮塔潘迪特,37迈克尔H。普鲁斯、38岁的查迪·萨阿德、30岁的谢法利·塞蒂亚-维尔马、39岁的乌诺尔·托尔斯坦斯多蒂尔、40岁的尤祖诺维奇、19岁的阿努拉格·维尔马、41岁的马修·扎维斯托夫斯基、37岁的薛忠、10岁的纳赫拉·阿菲菲、43岁的考塔尔·M。达哈尼,43阿斯玛阿勒萨尼,43尤基布拉德福德,27阿奇坎贝尔,44克里斯蒂克鲁克斯,23吉尔特鲁达H。de Bock,45Scott M.达姆劳尔,27,42,46尼古拉斯J杜维尔,47,48莎拉芬纳,49拉尔斯G。Fritsche,37Eleni Fthenou,43Gilberto Gonzalez-Arroyo,35,50克里斯托弗J格里菲斯,49余国,51凯伦A。亨特,52亚历山大·约恩尼斯,35,53诺姆多·M。Jansonius,14Takahiro Konuma,5,54Ming Ta Michael Lee,35Arturo Lopez Pineda,35,50Yuta Matsuda,55Riccardo E.Marioni,44Babak Moatamed,35Marco A.纳瓦-阿吉拉尔,35,50沼仓健介,55斯内哈尔-帕蒂尔,37尼古拉斯-拉斐尔,23(作者名单见下页)1美国马萨诸塞州波士顿市马萨诸塞州总医院医学部分析和转化遗传学部门2麻省理工学院和哈佛大学布罗德研究所斯坦利精神病学研究中心,美国马萨诸塞州剑桥3麻省理工学院和哈佛大学布罗德研究所医学和群体遗传学项目,美国马萨诸塞州剑桥4哈佛医学院生物医学信息学系,美国马萨诸塞州5大坂大学医学研究生院统计遗传学系,Suita 565-0871,日本6美国密歇根大学计算医学与生物信息学系7公斤捷成遗传流行病学中心,挪威8挪威奥斯陆奥斯陆大学医学和实验室科学部9MRC综合流行病学单位(IEU),布里斯托尔大学布里斯托尔医学院,英国10美国田纳西州纳什维尔范德比尔特大学医学中心遗传医学部医学系11Vanderbilt Genetics Institute,Vanderbilt University Medical Center,Nashville,TN,USA(联系方式见下页)总结生物库促进了全基因组关联研究(GWAS),该研究绘制了一系列人类疾病和特征的基因组位点然而,大多数生物库主要由欧洲血统的个体组成我们介绍了全球生物库荟萃分析倡议(GBMI)-一个由来自4大洲的23个生物库组成的合作网络,代表了220多万同意的个人,其遗传数据与电子健康记录相关联。GBMI荟萃分析了来自GWAS的汇总统计数据,这些统计数据是使用来自成员生物库的协调基因型和表型生成的,该策略验证了在不同生物库中进行的GWAS可以整合,尽管在病例定义、招募策略和基线特征方面存在异质性。这种合作努力提高了GWAS对疾病的能力,使未充分研究的疾病受益,并改善了风险预测,同时还通过整合基因和蛋白质表达数据并提供对人类疾病和特征的潜在生物学的洞察来提名疾病基因和候选药物介绍了解疾病的遗传基础可以阐明生物学或潜在的流行病学风险因素,基因作为药物靶点,并确定预防策略的风险个体全基因组关联研究(GWAS)已经确定了数百种人类疾病和性状的数千个遗传位点(参见GWAS目录1)。荟萃分析会开放获取文章Cell Genomics2,100192,October 12,2022<$2022 1这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。会开放获取文章2细胞基因组学2,100192,2022安妮·里士满,56岁,奥古斯丁·罗哈斯·穆恩·诺兹,35岁,乔纳森·A。肖特,23彼得斯特劳布,10,11冉陶,11,57布雷特范德沃夫,37曼维维内卡尔,55约加苏达维图里,27凯瑟琳C。Barnes,23Marike Boezen,45,90Zhengming Chen,32,34陈佳燕,58岁的朱迪·赵,38岁的乔治·戴维·史密斯,9岁的希拉里·K。菲纽肯,1,2,3卢德·弗兰克,17埃里克·R.加马松,10,11,60安德里亚甘纳,1,2,20汤姆R。冈特,9,59田歌,61,62黄海亮,1,2詹妮弗霍夫曼,63尼古拉斯卡特萨尼斯,35尤卡·T Kopia,20克拉拉Lajonchere,64,65马修H.罗,28,29李黎明,33塞西莉亚M。Lindgren,66岁Ruth J.F.卢斯,38,67斯图尔特麦格雷戈,28松田浩一,68凯瑟琳M。奥尔森,28大卫J波蒂厄斯,44约旦A。斯考特69,89哈罗德·斯奈德,45岁的高野智弘,55岁的理查德·C。Trembath,70Judith M.Vonk,45David C.怀特曼,28岁Stephen J.威克斯,23西斯卡·维门加,17约翰·赖特,71郑洁,9周翔,37菲利普·阿瓦达拉,19,72迈克尔·博恩克,37卡洛斯·D。布斯塔曼特,35,53,73南希J考克斯,10,11塞贡法图莫,74,75,76丹尼尔H。Geschwind,64,77,78卡罗琳海沃德, 56克里斯蒂安Hveem , 7 , 21埃伊。Kenny , 79Seunggeun Lee , 36Yen-Feng Lin, 24 , 80 , 81Hamdi Mbarek ,30Reedik Maégi,18希拉里·C 82莎拉·E·马丁Medland,28Yukinori Okada,5,83,84,85,86Aarno V. Palotie,1,2,20Bogdan Pasaniuc,12,25,64,77,87Daniel J. Rader,27,41Marylyn D.里奇,27岁,塞丽娜·桑娜,17岁,88岁,乔丹·W。Smoller,61,62KariStefansson,40DavidA. VanHeel,52RobinG. Walters,32,34SebastianZ? llner,37美洲生物库,日本生物库项目,BioMe,BioVU,CanPath-安大略省健康研究,中国嘉道理生物库协作组,科罗拉多个性化医学中心,deCODE遗传学,爱沙尼亚生物库,FinnGen,Generation Scotland,基因健康研究团队,(作者名单见下页)12美国加州大学洛杉矶分校David Geffen医学院病理学和实验室医学系13美国密歇根州安娜堡市密歇根大学心脏病学分部内科14荷兰格罗宁根大学UMCG眼科系15荷兰阿姆斯特丹大学医学中心(AMC)临床遗传学系16瑞典乌普萨拉大学生命科学实验室免疫学、遗传学和病理学系17荷兰格罗宁根大学UMCG遗传学系18爱沙尼亚塔尔图大学基因组研究所爱沙尼亚基因组中心,爱沙尼亚塔尔图19安大略癌症研究所,加拿大20芬兰赫尔辛基大学芬兰分子医学研究所,芬兰21挪威科技大学公共卫生和护理系HUNT研究中心,挪威莱万格22挪威特隆赫姆特隆赫姆大学医院圣奥拉夫斯医院医学诊所23科罗拉多大学-安舒茨医学院,奥罗拉,CO,美国24国立卫生研究院神经精神研究中心,苗栗,台湾25美国加州大学洛杉矶分校生物信息学跨部门项目26国立台湾大学公共卫生学院流行病学与预防医学研究所生物统计学组,台北,台湾27美国宾夕法尼亚州费城宾夕法尼亚大学佩雷尔曼医学院遗传学系28澳大利亚昆士兰州布里斯班QIMR Berghlit医学研究所29澳大利亚昆士兰科技大学生物医学科学学院卫生系30卡塔尔基金会卡塔尔基因组计划卡塔尔基金会研究、开发与创新卡塔尔基金会多哈31美国加州大学洛杉矶分校计算机科学系32联合王国牛津大学纳菲尔德人口健康系33北京大学医学部公共卫生学院流行病学与生物统计学系,中国34英国牛津大学MRC人口健康研究所35Galatea Bio,Inc.,关闭MI,USA36韩国首尔国立大学数据科学研究生院37美国密歇根大学生物统计学系38美国纽约州西奈山伊坎医学院查尔斯布朗夫曼个性化医学研究所39美国宾夕法尼亚州费城宾夕法尼亚大学佩雷尔曼医学院病理学和实验室医学系40deCODE Genetics/Amgen,Inc. 101雷克雅未克,冰岛41美国宾夕法尼亚州费城宾夕法尼亚大学佩雷尔曼医学院医学系42下士迈克尔Crescenz退伍军人医疗中心,费城,宾夕法尼亚州,美国43卡塔尔医学研究生物库,卡塔尔教育、科学和社区基金会,卡塔尔44英国爱丁堡大学遗传学和癌症研究所基因组和实验医学中心45荷兰格罗宁根大学医学中心流行病学系46美国宾夕法尼亚州费城宾夕法尼亚大学佩雷尔曼医学院外科学系47美国密歇根州安娜堡市密歇根医学院麻醉学系48美国密歇根大学医疗保健政策创新研究所49英国伦敦大学玛丽皇后学院沃尔夫森人口健康研究所50墨西哥米却肯州莫雷利亚市Amphora Health51中国医学科学院,中国52Blizard Institute,Queen Mary University of London,London,UK(联系方式见下页)细胞基因组学2,100192,2022年10月12日3会开放获取文章生命线,马萨诸塞州布里格姆生物银行,密歇根基因组计划,韩国国家生物银行,宾夕法尼亚大学医学生物银行,卡塔尔生物银行,QSkin太阳和健康研究,台湾生物银行,HUNT研究,加州大学洛杉矶分校ATLAS社区健康计划,乌干达基因组资源,英国生物银行,Alicia R.马丁,1,2,3克里斯汀·J.Willer,6,13,89,91,*Mark J. Daly,1,2,3,20,91,*和Benjamin M. 尼尔1,2,3,91,*53斯坦福大学医学院,斯坦福,加利福尼亚州,美国54日本烟草株式会社中央药物研究所,邮编:569-112555Genomelink,Inc.,关闭CT,USA56英国爱丁堡大学遗传学与癌症研究所医学研究委员会人类遗传学单位57美国田纳西州纳什维尔范德比尔特大学医学中心生物统计学系58Biogen,Cambridge,MA,美国59NIHR英国60MRC流行病学单位,剑桥大学,英国61精神病和神经发育遗传学单位,基因组医学中心,马萨诸塞州总医院,波士顿,MA,美国62精确精神病学中心,马萨诸塞州总医院,波士顿,马萨诸塞州,美国63人口基因组学中心,弗吉尼亚州波士顿医疗保健系统,波士顿,马萨诸塞州,美国64精确健康研究所,加利福尼亚大学,洛杉矶,洛杉矶,加利福尼亚州,美国65加利福尼亚大学洛杉矶分校大卫格芬医学院神经病学系神经遗传学项目,美国加利福尼亚州66英国牛津大学李嘉诚健康信息与发现中心大数据研究所67诺和诺德基金会基础代谢研究中心,哥本哈根大学医学与健康科学学院,丹麦68东京大学研究生院前沿科学研究科计算生物学与医学科学系,日本东京69密歇根大学儿科系,美国密歇根州70英国伦敦国王学院生命科学和医学系基础和医学生物科学学院71布拉德福德健康研究所,布拉德福德教学医院国民保健服务基金会信托基金,布拉德福德,英国72加拿大安大略省多伦多市多伦多大学分子遗传学系73Chan Zuckerberg Biohub,旧金山,加利福尼亚州,美国74非洲计算基因组学研究小组,MRC/UVRI和LSHTM,乌干达恩德培75伦敦卫生热带医学学院,英国76医学研究理事会/乌干达病毒研究所/伦敦卫生和热带医学院(MRC/UVRI/LSHTM)乌干达乌干达恩德培研究股77美国加州大学洛杉矶分校大卫·格芬医学院人类遗传学系78美国加州大学洛杉矶分校大卫·格芬医学院神经病学系79美国纽约州西奈山伊坎医学院基因组健康研究所80国立阳明交通大学医学院公共卫生医学人文学系,台湾81国立成功大学医学院行为医学研究所,台南,台湾82人类遗传学方案,Wellcome Sanger研究所,Hinxton,英国83东京大学大学院医学研究科基因组信息学研究科,东京113-003384统计免疫学实验室,免疫学前沿研究中心(WPI-IFReC),大坂大学,Suita 565-0871,日本85RIKEN综合医学科学中心系统遗传学实验室,日本86大坂大学开放与跨学科研究倡议研究所医学科学部综合前沿研究,Suita 565-0871,日本87美国加州大学洛杉矶分校David Geffen医学院计算医学系88遗传学和生物医学研究所,国家研究委员会,意大利卡利亚里89美国密歇根大学人类遗传学系90死亡91这些作者贡献相等92引线触点* 通信:wzhou@broadinstitute.org(W.Z.),cristen@umich.edu(C.J.W.),mjdaly@broadinstitute.org(M.J.D.),broadinstitute.org(B.M.N.)https://doi.org/10.1016/j.xgen.2022.100192cohort 组 has been instrumental 工 具 in making 制 造 thesediscoveries发现.然而,大多数基因组学研究主要在高资源国家的欧洲血统队列中进行。尽管仍有许多工作要做,以解决缺乏代表性的基因组学,在这里,我们提出了全球生物库荟萃分析倡议(GBMI),朝着建立一个更全面的观点遗传变异对人类健康和疾病的影响的拥有与基因组信息相关联的健康数据的生物库为遗传研究界提供了资源。的基因分型和测序成本的下降导致全世界基因组特征生物库数量的增加。与以特定表型或几种相关表型为中心的基于疾病或性状的队列相比,生物库能够对数百至数千种表型进行具有成本效益的遗传发现,这些表型来自电子健康记录(EHR)、基于注册的数据(例如,药物、死亡或癌症登记数据)和/或流行病学问卷调查,以了解遗传病因学人类疾病。二、三4细胞基因组学2,100192,2022会开放获取文章图1.截至2022年4月,四大洲的23个生物库已加入GBMI,使具有匹配健康数据和基因型的样本总数超过220万根据样本招募策略对生物样本库进行着色。2019年,我们成立了GBMI,汇集了23个生物库,共同了解人类健康和疾病的遗传基础(图1;表S1)。目标是启动和协调全球努力,特别是因为GWAS的荟萃分析在数据共享方面很简单,但能够实现各种科学目标,包括增加GWAS对常见疾病的能力,使遗传调查能够进入不太流行或研究不足的疾病,交叉验证生物库中的新发现,促进后续分析,如多基因风险评分或孟德尔随机化,以及增加关联研究的遗传祖先多样性,通过扩展,将分析扩展到更广泛的遗传变异。GBMI的核心是一个投资者社区,他们采用了七项原则来指导我们的合作(图2)。在这里,我们介绍了GBMI的试点工作,其中我们对18个生物库的14个共同关注的终点的GWAS结果进行了Meta分析,然后对另外5个生物库的GWAS结果进行了荟萃分析以进行复制。这些疾病包括发现阶段的各种流行病(表S2):哮喘(153,763例[样本流行率:8.54%]);慢性阻塞性肺病(COPD; 81,568例[5.86%]);心力衰竭(HF; 68,408例[5.05%]);卒中(60,176例[4.39%]);痛风(37,105例[2.50%]);静脉血栓栓塞(VTE;27,987例[2.63%]);原发性开角型青光眼(POAG; 26,848例[1.80%]);腹主动脉瘤(AAA; 9,453例[0.65%]);特发性肺纤维化 ( IPF; 8 , 006 例 [0.64%] ) ; 甲 状 腺 癌 ( ThC; 6 , 699 例[0.41%]);高甲状腺素血症(THC)。营养性心肌病(HCM; 2,993例[0.25%])和女性特有疾病子宫癌 ( UtC; 8 , 295 例 [1.2%] ) 。 我 们 还 检 查 了 急 性 阑 尾 炎(AcApp; 32,706例病例[2.95%])和阑尾切除术的相关手术代码(14,446例病例[1.86%]),这是可以从EHR手术代码中提取的终点,但在之前的GWAS中尚未进行广泛研究。作为概念的证明,使用对齐的表型定义,分析方法,共享标准和质量控制,我们展示了将生物库聚集在一起用于人类疾病遗传研究的优势。结果GBMI生物库概述GBMI代表了220万名研究参与者的健康和遗传数据,这些数据来自23个生物库:一个来自澳大利亚,一个来自西亚,四个来自东亚国家,八个来自欧洲,九个来自北美。在本手稿的准备过程中,乌干达基因组资源4加入了GBMI。表S1简要总结了GBMI中的生物库,包括每个生物库的基本信息(地点、研究所、队列规模和样本招募方法)、受试者(血统和年龄)、电子健康数据类型(来自流行病学调查问题的自我报告数据-naire、账单代码、医生和基因型(基因分型平台和插补细胞基因组学2,100192,2022年10月12日5会开放获取文章图2. GBMI的七项合作原则参考),以及数据访问和参考(网页,如果有的话)。疾病患病率在生物库(图S1)和样本招募策略组(图S2A)之间存在差异。从健康中心或医院招募受试者的生物库,相对于从一般人群招募受试者的生物库,13种检查疾病中有6种的患病率显著更高(Wilcoxon检验p0.05)(由于基于医院的生物库共享的数据不足,从检验中排除了阑尾切除术)(图S2B),包括哮喘、HF、卒中、VTE、痛风和IPF。GBMI通过包括6个主要祖先群体的生物库样本,在遗传学研究中纳入了不同的遗传祖先:大约42,000名来自混合血统散居地(AFR)的非洲血统,18,000名混合美国血统(AMR),31,000 名 中 亚 和 南 亚 血 统 ( CSA ) , 415 , 000 名 东 亚 血 统(EAS),140万名欧洲血统(EUR),以及12名,000名中东人(表S3)。为了比较不同生物库之间代表的遗传祖先,我们使用所有生物库中重叠的遗传标记物的预先计算的负载和包含1000个基因组5和人类基因组多样性项目(HGDP)的参考,将生物库投影在同一空间中的6个PC使得能够在所有生物库中交叉比较样品遗传祖先(STAR方法)。值得注意的是,GBMI中使用的群体标签由全球遗传参考数据集定义,尽管GBMI不具有全球代表性;例如,分配到AMR和AFR祖先组的大多数个体大多来自美国的生物库,GBMI参与者的祖先目前分别不代表更广泛的中美洲/南美洲或非洲大陆祖先。生物样本库荟萃分析进行了生物样本库荟萃分析(图4)。我们主要通过将国际疾病分类(ICD)代码映射到疾病的phecodes7,并使用干预和程序分类(OPCS)代码对程序进行了规范化表型定义。我们与成员生物库共享定义以管理表型(表S4)。尚未为其参与者收集ICD或OPCS代码的生物样本库使用共享表型定义作为指南,以使用任何可用的健康数据(如自我报告数据)创建表型(表S5)。经过标准质量控制和祖先群体估计(表S1),在每个生物库中进行按血统和性别分层的分析(表S2),前20个遗传PC作为协变量进行调整,这是样本血统的连续测量(STAR方法)。中心分析小组进行了后-通过标记与gnomAD8相比具有不同等位基因频率的标记物并排除插补质量评分0.3的标记物,对每个生物库进行GWAS变体水平质量控制(STAR方法)。在所有生物库中,检测了7070万个遗传变异体的关联,其中在至少两个生物库中检测了3940万个变异体(表S6)。发现荟萃分析包含多达18个生物库,对于每个终点,进行了全生物库荟萃分析以及血统和性别分层荟萃分析。此外,我们对每个生物库进行了留一个生物库(LOBO)荟萃分析,估计了遗传相关性,并比较了单个生物库和相应LOBO中GWAS之间的效应量估计值(参见生物库间关联结果的整合)。LOBO结果已被用于对样本重叠敏感的分析,例如开发和测试用于疾病预测的多基因风险评分(PRS)。将9个荟萃分析后过滤器应用于全基因组显著位点(STAR方法)。对5个生物样本库(BBofA、PMBB、CanPath、NBK和QBB)进行荟萃分析,以复制通过详述荟萃分析确定的基因座。对所有生物库的14个终点进行的基于逆方差的荟萃分析成功复制了317个先前报告的基因座1,并鉴定了183个明显的新基因座,涵盖变异频率谱(STAR方法;表S7;图5)。在包含多达73,596份样本(9,991例病例和63,605例对照)的复制荟萃分析中,针对12个终点(VTE和阑尾切除术除外)检测了431个基因座(表S2和S7)。尽管在431个位点中有360个位点的重复数据中的病例数不到详细数据中病例数的10%,但在重复荟萃分析中有127个位点(30%)的p值0.05在127个基因座中,124个基因座在发现和复制荟萃分析中具有一致的效应方向(表S7)。在87个位点上,蛋白质编码变体是最显著的变体(n = 26)(表1)或与最显著的变体处于连锁不平衡,r2> 0.8(n = 61)。这87个基因座中有18个为新基因座(表S8)。13个终点的基于SNP的遗传力在责任量表上显著不同于0(假设人群患病率与汇总在一起的所有生物库的患病率匹配),范围为1.79%(AcApp)至10.73%(痛风)(表S9)。估计心肌病的遗传度为0。这可能是因为基于低患病率(0.25%)和低病例数(2,993例)的遗传力估计不足,并且因为该疾病具有异质性亚型,包括扩张型和肥厚型心肌病,不同的基因原因。106细胞基因组学2,100192,2022会开放获取文章图3.GBMI将具有不同样本血统的生物库纳入遗传研究使用预先计算的遗传标记负荷,将生物库已确定的关联在很大程度上在生物库中共享。500个全基因组基因座中95%(n = 476)处的前导变体未显示出不同数据集(每个生物库和祖先)之间效应大小的异质性的证据(表S7),其中Cochran Q检验R1/500的p值 这表明,协调表型,然后使用GBMI内的分析管道将来自不同生物库的GWAS整合在一起,能够可靠地发现遗传病相关性。我们还使用了在MR-MEGA11中实施的荟萃回归方法进行全生物库荟萃分析。与固定效应、基于逆方差的荟萃分析相比,MR-MEGA解释了数据集间的效应量异质性,其在10个终点中确定了17个额外的位点,包括12个新位点(图S3;表S10)。通过合并非欧元血统的样本提高功效在全生物库荟萃分析中分析了额外的2180万个遗传变异,这些变异在仅EUR荟萃分析中不存在,变异集插补自单倍型参考联盟(HRC)和/或人群特异性参考面板(表S1和S6)。这些变体中的大多数是罕见的,其中1830万个具有次要等位基因频率(MAF)% 1%,另外340万个在至少一个祖先组中是常见的(图S4)。将具有不同祖先的样本加入荟萃分析,使我们能够比较不同祖先的基因组位点的效应大小。 500个基因座中的486个在一个以上的祖先中进行了测试(表S7)。486个基因座中的16个显示了在整个祖先中效应大小的异质性证据(跨祖先的Cochran Q检验的p值为在仅欧元荟萃分析中确定了337个基因座 ,并 且包 括非 欧元 样本 产生 了 163个 基因 座( 图 S5A; 表S12),使基因座总数达到500个。虽然样本量的增加提高了我们检测变异的能力,但增加的多样性允许识别其指数变异在非欧元血统中更常见的基因座。与仅EUR荟萃分析中确定的337个基因座中仅4个(1.19%)相反,163个额外基因座中的21个(12.9%)具有在其他祖先中比EUR祖先中至少高10倍的指数变异,并且具有a欧元血统的千年发展目标加速框架为5%(表S12)。森林图(图S5B)突出显示了EAS中指数变异比其他祖先更频繁的分析(POAG的MIR 2054/INTU,COPD的PNPT1/EFEMP 1和哮喘的NAA 38)在非洲祖先中比其他祖先更常见的基因座,包括VTE的VPS 13 D/DHRS 3,HF的BCL 2L 12和中风的MEIS 2/TMCO 5A性别分层荟萃分析我们进行了性别分层荟萃分析,以比较性别之间的GWAS效应量。在一个以上的生物库中测试了479个基因座,用于仅男性和仅女性的荟萃分析。8个位点显示了异质效应量的证据之间细胞基因组学2,100192,2022年10月12日7会开放获取文章图4.GBMI旗舰项目的工作流程8细胞基因组学2,100192,2022会开放获取文章-图5. 全生物样本库荟萃分析已成功复制317个已报道的基因座,并确定了183个新的基因座(A) 将每个终点的基因座数量(左图)与有效样本量1/(4/病例+ 4/对照)(由样本血统着色)(右图)作图。(B) 最高命中分布在整个等位基因频谱上。表型按有效样本量升序排列。未显示β>5的一个标志物新基因座的基因名称用蛋白质编码索引变体标记雄性和雌性(Cochran Q检验的p值环境因素,如饮酒,在男性和女性中存在差异,可能在性别之间的GWAS效应量差异中发挥作用。我们已经复制了两个位于痛风的醛脱氢酶家族基因上的基因座,并且在男性中比在女性中表现出更强的关联。一个基因座的最高命中是位于基因ALDH 2处的EAS特异性内含子变体rs 4646776(与错义变体 rs67114 的 r2=0.99),在男性中比在女性中具有更强的效应(在女性中AF =20.4%,效应大小[SE] = -0.10 [0.056],p = 0.07;在男性中AF =20.4%,效应大小[SE] = -0.10 [0.056],p = 0.07)。AF =24.2%,效应量[SE]=0.29 [0.023],p =2.5310- 36)。另一个位点的最高命中是位于ALDH16A1的低频EUR特异性内含子变体,其先前已被鉴定为与血清尿酸水平相关 。 13 该 变 异 与 痛 风 的 相 关 性 更 强在 男 性 和 女 性 中(rs752383928内含子,在女性中AF = 0.74%,效应量[SE] =1.63 [0.29],p = 2.433 10- 8;男性AF = 0.73%,效应量[SE]=2.70 [0.18],p =1.33310- 50)。我们还发现了先前报道的疾病相关基因座的显著性别差异:RANBP 6/IL 33用于哮喘,15AFAP 1用于COPD,16PKD 2 用 于 痛 风 , 17MUC 5AC/MUC 5 B 用 于 IPF ,18ARHGEF12用于POAG。19CTDP 1/KCNG 2基因座(rs 11665567)的最高变异是一种基因间变异,与女性特异性哮喘相关(女性AF = 18.8%,效应量[SE] = 0.05[0.008],p = 5.623 10- 10;男性AF = 18.7%,效应量[SE] = 0.003 [0.01],p = 0.75 [差异p值= 2.43 10- 4])。有趣的是,据报道,与哮喘风险增加相关的等位基因与吸烟风险增加相关,但吸烟与哮喘风险之间的关系仍不清楚。明确性别特异性关联是否是由于遗传变异、环境因素和/或可能的基因-环境相互作用的多效性效应,需要进一步研究。有31个位点仅在性别分层荟萃分析中发现但在性别合并的荟萃分析(p值> 53 10-8),其中11个位点在女性群体中检测到仅荟萃分析和仅男性荟萃分析中的20个位点31个基因座中的26个对于研究的表型可能是新的(表S14)。仅针对女性的卒中荟萃分析确定了先前报告的基因座CETP21,其在性别合并荟萃分析中未达到全基因组显著性阈值。最高命中是内含子变体rs7499892,其在女性中的关联比在男性中的关联更强(在女性中:效应量[SE] = 0.078 [0.014],p = 1.083 10- 8;在男性中:效应量[SE] = 0.007 [0.012],p = 0.56)。CETP的转基因表达通过不同的机制增加女性和男性的血浆甘油三酯水平,22,23而甘油三酯水平在中风风险中的作用仍然难以捉摸。31个基因座均未在雌性或雄性中的各血统效应量估计值方面存在显著异质性,p<0.05/31(表S14)。在每个祖先内进行的性别间异质性检验中,在一些祖先中观察到男性和女性效应量的显著异质性,表明这些基因座的性别间效应异质性不太可能受到研究的每个性别比例的祖先差异的混淆(图S7)。一些具有性别特异性效应的基因座也具有祖先特异性,如痛风的EAS特异性基因座ALDH2和EUR特异性基因座ALDH16A1整合生物样本库中的关联结果我们在荟萃分析中评价了不同生物库的整合(STAR方法;数据S1)。 我们比较了个体生物库中最大变异的效应量,会开放获取表1.在GBMI的多生物库多祖先荟萃分析中确定的26个疾病相关基因座内编码蛋白的先导变体a报告了合并荟萃分析数据集中替代等位基因(ALT)的频率。b在荟萃分析中报告了替代等位基因(ALT)的比值比。文章Cell Genomics2,100192,October 12,20229端点电子邮箱(hg38)参考/ALT频率a比值比(95%CI)bp异齿龙属基因功能例控制生物库数量小说AAA10:73913343T/C0.7370.88(0.855.93310-120.76PLAU错义9,4531,446,42211COPD1:149934520T/C0.3501.04(1.037.91310-100.54MTMR 11错义79,8441,289,68315中风电话:+86-21 -66669999A/G0.4460.96(0.941.83 10-110.99CENPQ错义60,1761,310,72516哮喘10:94279840G/C0.4481.03(1.022.52310-90.98PLCE1错义153,7631,647,02218哮喘14:100883117G/T0.0251.09(1.052.61310-80.73RTL1错义133,3691,370,60616哮喘19:56222056C/A0.2531.03(1.022.35310-80.60ZSCAN5A错义149,2931,626,58117已知COPD14:94378610C/T0.0201.22(1.165.23 10-159.27310-3SERPINA1错义54,105883,39911COPD19:44908684T/C0.1400.95(0.941.04310-80.36APOE错义81,5681,310,79816痛风电话:+86-21 -55508073T/C0.5880.87(0.869.27310-640.11GCKR错义37,1051,448,12815痛风11:64593747G/A0.0160.36(0.311.19310-410.10SLC22A12停止增益6,634248,3052痛风12:57449928G/A0.1940.91(0.891.51310-170.45INHBC错义37,1051,448,12815IPF5:1279370T/C0.001862(2052.66310-200.09叔错义1,278330,9542IPF169588475 -169588475G/A0.0142.19(1.811.61310-150.02SPDL 1错义4,812882,4167POAG1:11193760C/T0.0260.67(0.64.39310-140.90ANGPTL7错义12,810421,3605POAG1:171636338G/A0.0026.33(4.711.67310-344.33三一六MYOC停止增益15,9161,092,44611POAG14:60509819C/A0.5470.89(0.877.08310-300.31SIX6错义26,8481,460,59915中风电话:111803962G/A0.2380.9(0.885.16310-180.37ALDH2错义23,804269,6564VTE1:169549811C/T0.0203.04(2.851.53 10-2455.52310-13F5错义26,7491,011,5099VTE12:6034818T/C0.8891.1(1.071.59310-100.21VWF错义27,9871,035,2909VTE12:103742510C/T0.0111.65(1.456.19310-140.25STAB2错义10,353341,4182哮喘1:12115601G/A0.0120.85(0.81.73 10-110.46TNFRSF8错义118,7671,202,66012哮喘1:31699894G/T0.5731.03(1.021.61310-100.49COL16A1错义148,0451,579,63217哮喘电话:0755 -C/A0.3870.95(0.944.21310-210.54TLR1错义138,7641,458,02215会开放获取文章10细胞基因组学2,100192,2022通过拟合Deming回归分析相应的LOBO荟萃分析。24在生物库和表型中,大多数斜率估计值与1无显著差异,但样本量较小、非EUR或多个祖先的生物库除外(图S8;数据S1)。个体生物库和LOBO之间遗传性估计值最高的疾病(哮喘、痛风和COPD)的遗传相关性估计值接近1(STAR方法;图S9;表S9)。我们还比较了基于人群的生物库和基于医院/医疗保健的生物库(STAR方法),分别对痛风、ThC、哮喘和POAG进行了生物库组的荟萃分析,观察到两个生物库组之间的效应量一致(图S10;数据S1)。尽管生物库之间存在差异,但稳健的遗传关联结果表明生物库之间遗传关联结果的整合。对
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功