没有合适的资源?快使用搜索试试~ 我知道了~
机器学习优化的血细胞性状多基因评分及其与疾病的关联
文章机器学习优化了血细胞性状的多基因评分,确定了性别特异性轨迹和与疾病的图形摘要亮点D 评价了6种多基因评分方法d开发了针对血细胞性状的机器学习优化的PGSdPGSs显示与性别和分层年龄依赖性血细胞性状水平的血细胞性状的PGSs与常见疾病作者余旭,德拉加纳·武科维奇,斯科特角里奇...John Danesh,Nicole Soranzo,Michael Inouye通信yx322@medschl.cam.ac.uk(Y.X.),mi336@medschl.cam.ac.uk(M.I.)简言之Xu等人使用6种PGS方法开发并验证了26种血细胞性状的多基因评分(PGS)。使用机器学习方法开发的PGS显示出改进的多基因预测,并允许联合建模相关性,相互作用和低MAF变体的影响。血细胞性状PGSs被用来分层的血细胞性状水平的年龄为基础的轨迹,并显示与常见疾病的遗传相关。Xu等人,2022,细胞基因组学2,1000862022年1月12日,作者(S)。https://doi.org/10.1016/j.xgen.2021.100086会会开放获取文章机器学习优化多基因评分对于血细胞性状,确定性别特异性轨迹和疾病的遗传相关性徐宇,1,2,3,14,* 德拉加娜·武科维奇,4,5斯科特·C.里奇,1,2,3,6帕尔萨阿克巴里,3,5陶江,3杰森格雷利,2,7亚当·S巴特沃斯,3,5,6,12威廉·HOuwehand,4,6,8,9David J. Roberts,5,8,10Emanuele Di Angelantonio,3,5,6,11,12John Danesh,3,4,5,6,12Nicole Soranzo,4,5,6and Michael Inouye1,2,3,6,12,13,*1Cambridge Baker Systems Genomics Initiative,Department of Public Health and Primary Care,University of Cambridge,Cambridge CB18RN,UK2Cambridge Baker Systems Genomics Initiative,Baker Heart and Diabetes Institute,Melbourne,VIC 3004,Australia3英国心脏基金会心血管流行病学单位,剑桥大学公共卫生和初级保健系,剑桥CB1 8RN,英国4人类遗传学系,Wellcome Sanger研究所,Hinxton CB 10 1SA,英国5英国剑桥大学国家健康研究所献血者健康和基因组学血液和移植研究部,剑桥CB1 8RN6英国心脏基金会卓越研究中心,剑桥大学,剑桥CB1 8RN,英国7数学与统计系,拉筹伯大学,Bundoora,VIC 3086,澳大利亚8英国剑桥生物医学校区国民健康服务(NHS)血液和移植中心,剑桥CB2 0PT,英国9剑桥大学血液学系,Cambridge CB2 0PT,UK10国家卫生研究所牛津大学生物医学研究中心和约翰拉德克利夫医院,牛津OX3 9DU,英国11Health Data Science Research Centre,Human Technopole,米兰20157,意大利12健康数据研究英国剑桥,惠康基因组校区和剑桥大学,剑桥CB10 1SA,英国13艾伦·图灵研究所,伦敦NW1 2DB,英国14引线触点* 通信:yx322@medschl.cam.ac.uk(Y.X.),mi336@medschl.cam.ac.uk(M.I.)https://doi.org/10.1016/j.xgen.2021.100086总结血细胞性状是健康和免疫功能的关键指标,其遗传关联研究已经确定了数百种关联,并定义了复杂的多基因结构。血细胞性状的多基因评分(PGS)在疾病风险预测和预防方面具有潜在的临床实用性,但设计PGS仍然具有挑战性,最佳方法尚不清楚。为了解决这个问题,我们评估了6种方法的相对性能,以开发26种血细胞性状的PGS,包括标准的修剪和阈值处理方法(P + T)和5种学习方法:LDpred2,弹性网络(EN),贝叶斯岭(BR),多层感知器(MLP)和卷积神经网络(CNN)。我们根据来自UK Biobank和INTERVAL的血细胞性状数据评估了这些优化的PGS我们发现,使用常见的机器学习方法EN和BR设计的PGS显示出对血细胞性状的预测得到了改善,并且始终优于其他方法。我们的分析表明,EN/BR是PGS构建的首选,在外部验证中显示出25个血细胞性状的性能改善10个PGS表现出显着的统计学交互作用与性别,性别特异性PGS分层显示,他们都有很大的变化轨迹的血细胞性状随着年龄的增长。血细胞性状和常见人类疾病的PGS之间的遗传相关性被确定为众所周知的以及新的关联。我们开发了针对血细胞性状的机器学习优化的PGS,展示了它们与性别、年龄和疾病的关系,并将其作为资源公开提供介绍血细胞在多种生物过程中起着重要作用,如氧转运、铁稳态和病原体清除。1和形态学以及它们可能的功能与一系列人类疾病有关,例如与冠心病有关的网织红细胞指数或与哮喘有关的嗜酸性粒细胞计数。因此,血细胞计数和相关性状也广泛用于临床实践,它们是世界上最常见的临床测试之一。Cell Genomics2,100086,January 12,2022<$2021作者。1这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。会开放获取文章2Cell Genomics2,100086,2022血细胞性状是可遗传的,其遗传结构已被发现是多基因的。对英国生物样本库(UKB)6、7和INTERVAL8队列的分析表明,红细胞计数和形态的18%至30%的变异可由数百种常见的常染色体变异体解释。4因此,预计这些性状的水平在某种程度上可以通过使用多基因评分(PGSs)的遗传变异来预测9。血细胞性状的PGSs显示出在临床实践中的实用潜力最近的一项研究检查了已知致病性变异和血细胞性状PGS对罕见血液病患者的影响,结果表明PGS增加1个标准差(SD)的风险与杂合性携带罕见编码变异的风险相当。10这些结果表明,血细胞性状的PGSs在疾病风险预测和预防中可能发挥重要作用,或有助于更好地理解疾病病因和确定新的治疗靶点。十一,十二PGS最常被构建为个体携带的遗传变异(通常是单核苷酸多态性(SNP))的加权和,其中遗传变异被选择并且它们的权重通过全基因组关联研究(GWAS)中的每SNP单变量分析来设定9,13单变量分析在很大程度上依赖于硬截止阈值来识别相关的变量-例如,用于选择独立变量的连锁不平衡(LD)修剪14和用于选择显著变量的p值阈值(P + T方法)。然而,标准方法如P + T具有局限性,包括它们不能捕获变体之间的相互作用。机器学习和深度学习方法可以提供显著改善的血细胞性状的多基因评分,如在乳糜泻和1型糖尿病的应用中所证明的,15-在本研究中,我们评估了6种PGS方法,以使用来自英国生物库和INTERVAL的数据开发3种血细胞类型(血小板、红细胞和白细胞)的26种血细胞性状的优化PGS(研究工作流程见图1在这项研究中评估的6种PGS方法包括修剪和阈值(P + T)方法和5种学习方法:LDpred2,弹性网络(EN),贝叶斯岭(BR),多层preceptron(MLP)和卷积神经网络(CNN)。我们的分析发现,常见的机器学习方法EN和BR显示出对血细胞性状的改进的多基因预测,并且始终优于其他方法。我们评估了这些血细胞性状PGS的组成,发现EN和BR的益处在于联合建模相关性、相互作用和低次要等位基因频率(MAF)变体的影响我们的分析表明,当有足够的个体水平数据时,EN和BR方法是PGS构建血细胞性状的首选当没有足够的个人数据可用时,LDpred2也是一个不错的选择。我们研究了PGS与性别的相互作用以及不同年龄段测量的血细胞性状的分层。最后,我们在不同的常见疾病中进行了血细胞性状PGSs的遗传相关性扫描。我们通过PGS目录20公开提供机器学习优化的PGS模型,以促进遗传和临床研究血细胞特征和相关疾病。结果血细胞性状PGSs的开发使用最优变体集合(即,条件分析变体,参见STAR方法),我们比较了5种学习方法与P + T方法构建26种血细胞性状的PGS的性能(图2)。5种方法中的4种,EN,BR,LDpred2和MLP,在几乎每种血细胞性状的Pearsonr值得注意的是,EN和BR的性能几乎不可区分,并且是最稳定的以及整体性能最好的方法。虽然LDpred2在大多数特征的内部验证中表现优于其他学习方法,但其在外部验证中的表现大幅下降,与EN和BR相比,大多数特征的表现相似或略好,少数特征的表现明显不佳(例如,白细胞的嗜碱性粒细胞采用这4种学习方法中的任何一种,11个血细胞性状的PGSs在内部验证中的Pearsonr评分都获得了近R0.02的提高。在使用EN或BR的内部和外部验证中,与P + T方法一致,以下5个血细胞性状均获得了R0.02的改善(单核细胞百分比[MONO%]、白细胞计数[WBC#]、平均血小板体积[MPV]、单核细胞计数[MONO#]和血小板压积[PCT](图2)。我们发现,与线性模型相比,在MLP和CNN中引入非线性因素并没有改善血细胞性状的基因组预测。对于我们研究的近一半的血细胞性状,CNN导致PGS具有与P + T方法大致相同或更低的Pearsonr。比较单变量分析和机器学习BR和EN优于P + T,这主要是由于变量效应量估计的差异;因此,我们比较了单变量分析(用于P + T)估计的变量效应量。T方法)和EN/BR方法(图S1)。我们发现BR和EN几乎没有将效应量设为零,采用BR或EN的大多数变量的效应量与GWAS中单变量分析的结果相同或相似。这与遗传模型是一致的,其中最常见的遗传变异是独立的和累加的贡献,每一个血细胞性状。此外,我们还发现,与单变量分析中估计的结果相比,EN和BR都倾向于缩小MAF低的变体的影响(有时会大大缩小);然而,这并不一定有助于实质性改善PGSs。例如,我们观察到许多低MAF变体对性状的影响,例如平均红细胞体积(MCV)和平均小体血红蛋白浓度(MCHC),BR和EN显著缩小; MCV的PGS构建实现了显著改善(Pearsonr评分增加约0.03),而MCHC的PGS在内部验证中几乎没有改善(图2)。尽管如此,低MAF变量的收缩效应可以导致更好的模型泛化,这意味着它们在跨数据集应用时可以提供更稳定的预测。这可能是由于单变量中的大量噪声Cell Genomics2,100086,2022年1月12日3会开放获取文章图1.使用6种不同方法构建血细胞性状的PGS在这项研究中评估了六种PGS方法:修剪和阈值(P + T)和5种学习方法:LDpred2,弹性网络(EN),贝叶斯岭(BR),多层preceptron(MLP)和卷积神经网络(CNN)。估计现有训练样本中低MAF变体的效应量。单变量分析不考虑变异体之间的LD,这是PGS准确性降低的众所周知的原因。的P + T方法依靠LD剪枝来去除变异之间的相关性,但必须在去除相关变异和保留预测变异之间进行权衡。条件分析(CA)4Cell Genomics2,100086,2022会开放获取文章图2.5种学习方法与P + T方法的性能比较在UKB或INTERVAL上测试了P + T方法用于26个血细胞性状的PGS构建的Pearsonr评分性能相对于P + T方法,5种学习方法的性能:EN,BR,LDpred2,MLP和CNN,根据EN(最大Pearsonr在左侧增加),从左到右以降序呈现每个血细胞性状。给定特定方法、特质和群组,示出了对应于5个不同训练测试数据分区的5个训练模型的平均r使用EN/BR和P + T估计的变量效应量之间的详细比较见图S1。每个性状的变异体都包含许多相关变异体,其中r2> 0.1的变异体最多。正如预期,对于中度至高度LD的变体,EN和BR倾向于分配与单变量分析相比与非LD变体更不同的权重,一些变体效应甚至改变方向(图S1)。此外,单变量分析不对SNP-SNP相互作用对性状的影响建模;然而,建模相互作用可以改善PGS构建。21对于所有CA变体,我们使用Bonfer对每个性状进行SNP-SNP相互作用分析roni调整的阈值以确定显著的相互作用(STAR方法)。我们发现,当比较EN/BR与单变量分析时,显著的SNP-SNP相互作用倾向于包括具有不同权重的SNP(图S1)-例如,MCV和平均红细胞血红蛋白(MCH)。EN和BR相对于单变量分析的性能增加似乎是由于为上述3组变体分配的权重(低MAF、中至高LD或SNP-SNP相互作用)。Cell Genomics2,100086,2022年1月12日5会开放获取文章EN和LDPred2改善较大变异集的血细胞性状PGSs上述分析表明,EN、BR和LDpred2是用于构建血细胞性状的PGS的最有前途的方法。我们通过合并LDpred2和EN的更大变体集进一步探索了潜在的改进(因为EN和BR的表现几乎相同,我们仅呈现EN的结果)。我们的结果表明,当与仅使用条件分析变体的EN相比时,EN进一步改善了具有扩展变体集的几乎每个性状的PGS(图3和S2)。例如,当全基因组并入所有变体时(即,无P值阈值),26个性状中有25个性状在外部验证中的R得分至少提高了0.02,其中6个性状的额外提高>0.05。当与P +T方法相比时,EN通过使用最大的扩展变体集而对大多数血细胞性状的PGS实现了更大的改善例如,26个性状中的25个性状相对于使用P + T获得的r红细胞比容[HCT;从0.24至0.30]和WBC#[从0.32至0.39])。通过对所有LD细化变体应用不同的p值阈值,我们还获得了每个性状的较小变体集我们的研究结果表明,通过使用具有p值阈值的较小变体集,EN可以实现与使用最大扩展变体集时相当的性能。例如,对于p值阈值= 10- 4的较小变量集和最大变量集之间的所有性状,使用EN的r得分方面的性能差异在0.01以内(INTERVAL外部验证)。使用更宽松的P值阈值(即,p值阈值= 10- 2)可能导致过拟合问题。通过合并p值阈值为10- 2的变量集,EN在使用UKB的内部验证中的性能显著优于使用其他变量集的性能,而在使用INTERVAL的外部验证中,EN的性能大幅下降(图3和S2),有些模型甚至表现不佳P + T方法。然而,使用过于严格的阈值(例如,p值阈值= 10- 6或更低)可能限制EN的预测能力。当使用具有更严格的p值阈值的扩展变体集(即,p值阈值=10- 6和10- 4)。然而,LDpred2模型在具有宽松或无p值阈值的变体集上显示出过拟合(即,p值阈值= 10- 2和1.0)。然而,EN在使用INTERVAL数据的外部验证中始终优于LDpred2,几乎每个性状的每个扩展变体集都是如此(图3)。例如,EN在两种方法的最佳表现变体集合(p值阈值为10- 4)上的9个性状的r得分方面优于LDpred 2>0.02。此外,LDpred2未能在2个扩展变体集上构建性状MPV的PGS,表明EN在使用大变体集时可能更稳健。性别特异性相互作用和PGS-stratified轨迹最大限度地提高PGS对血细胞性状的准确性和性能,为深入了解潜在的生物学提供了机会,这可能与疾病风险相关我们接下来比较了EN训练的PGS将用于在INTERVAL中在个体的年龄范围内对男性和女性的血细胞性状水平进行分层的程度(图4和S3)。在INTERVAL中,许多血细胞性状的水平存在广泛的年龄依赖性动力学,其中EN训练的PGS(在变体选择中p值阈值=1 ) 提 供 与 性 状 的 Pearsonr 基 本 一 致 的 分 层 ( 即 , 性 状 的PearsonrPGS越大, PGS对群体分层越好血细胞性状表现出众所周知的性别差异。22有趣的是,大约一半的血细胞性状的PGS导致男性和女性之间不同程度的分层,其中10个血细胞性状在PGS-性别相互作用分析中通过了Bonferroni调整的显著性阈值(表1)。如绝经后妇女的WBC指数明显下降,而男性的这些指标水平相对稳定。重要的是,在男性和女性中,EN训练的PGS继续分层特质水平,即使在特质水平本身改变之后。在顶部与底部的PGS五分之一的平均性状水平有很大的不同。与底部五分位数相比,WBC#的PGS顶部五分位数在INTERVAL中平均额外约1.5个WBC/nL(增加约25%);同样,WBC#的顶部与底部1%PGS之间的差异为约2.2个WBC/nL(增加40%)。对于MCV,PGS最高五分位数的个体的红细胞平均体积比PGS最低五分位数的个体大约5毫微微升(fL),并且这些差异在所有年龄范围内都保持了男性和女性。血细胞性状与常见疾病的遗传相关性最后,我们检查了血细胞性状的EN训练的PGS和几种常见人类疾病的PGS的遗传相关性的景观(图5)。我们发现67个遗传变异通过了Bonferroni校正显著性(p 10- 4),这与血细胞性状本身与疾病之间众所周知的关联一致。例如,先前的研究已经证明哮喘与嗜酸性粒细胞指数密切相关,4与我们的分析一致,这表明嗜酸性粒细胞计数(EO#)和嗜酸性粒细胞百分比(EO%)的PGS与哮喘PGS相关。最强的遗传相关是精神分裂症和WBC#之间,与以前的研究的特质和精神分裂症的风险。24我们的分析还揭示了EO#和过敏性疾病25以及WBC#和克罗恩[26]除了众所周知的血细胞性状与常见疾病之间的关联外,遗传关联扫描还发现了新的关联。例如,网织红细胞未成熟部分(IRF)的PGS与冠状动脉疾病(CAD)PGS显著相关,这与最近发现网织红细胞水平与高血压和动脉粥样硬化具有矛盾关联有关27; MONO#的PGS与精神分裂症PGS显著相关,这可以得到精神分裂症发病机制中炎症假说的支持.28这些研究表明,血细胞性状与类风湿性关节炎、CAD、精神分裂症有6Cell Genomics2,100086,2022会开放获取文章图3. P + T、EN和LDpred2方法在INTERVAL以条件分析变异体为基集,通过LD细化和p值阈值处理,将选定的变异体集加入,形成每个性状不同大小的扩展变异体集。我们使用CA变体集作为起点,然后观察P + T,EN和LDpred2在这些扩展变体集上的性能。请注意,在此图中,P + T指的是直接将加权和应用于具有GWAS效应量的给定变量集的方法有关UKB中的类似性能比较,请参见图S2。Cell Genomics2,100086,2022年1月12日7会开放获取文章图4.按EN训练的性状PGS的五分位数列出的男 性 和 女 性 的性状水平,包 括 间 期 中 的MCV、WBC#和中性粒细胞计数(NEUT#)y轴是观察到的测量值,仅针对每个血细胞性状的技术伪影和季节进行调整。广义加性模型(GAM)用于拟合INTERVAL样本的数据,阴影区域代表95%置信区间。所有其他性状的结果见图S3和克罗恩讨论改进的血细胞性状的多基因模型有助于我们理解无数的生物过程和疾病。这项研究表明,常见的机器学习方法(如EN和BR)显示出对血细胞性状的改进的多基因预测,并且始终优于其他方法,这可能是由于它们对SNP-SNP相关性,相互作用的隐式建模,以及控制代表性不足的低MAF变体的影响我们表明,血细胞性状PGSs能够在基于人群的环境中对男性和女性的年龄依赖性性状水平进行分层,并且许多血细胞性状PGSs具有性别特异性相互作用。血细胞性状和常见疾病之间的遗传相关性的景观确定了众所周知的性状水平的关联,如嗜酸性粒细胞和哮喘,以及有趣的关联,如IRF和CAD,MONO#和精神分裂症。我们的分析表明,EN和BR可以联合模拟相关性、相互作用和低MAF变体的为了克服PGS方法(如MLP和CNN)中的可扩展性问题,并在这些方法中提供直接可比的结果,基于P + T方法识别的最优变体集由于在P+ T中使用硬截止阈值,这种用于变体选择的统一方式可能限制基于正则化的方法EN和BR的潜力,这两种方法以其在特征选择中的强度而闻名我们的后续分析表明,在EN中包括更大的全基因组变异集进一步改善了几乎每一种血细胞性状的PGS。这些结果表明,EN/BR方法作为首选的PGS开发这些(或类似)性状时,足够的个人水平的数据是可用的。然而,输入变量数量的增加可能导致使用这些方法时对训练数据量和计算资源的需求增加,这可能会限制它们在PGS开发中的应用。为了解决这些问题,我们还证明了收紧p值阈值不仅可以减少输入变量的大小,还可以保持其性能。然而,我们还发现,过于严格或宽松的p值阈值可能会导致性能恶化或过拟合问题,因此应谨慎应用。我们的分析表明,通过外部验证步骤选择适当的LDpred2专门设计用于在多基因预测中考虑LD相关性,但它仍然依赖于截止阈值来消除其他因素(如低MAF变体)的影响。它们可能是PGS构建中表现不佳或失败的潜在原因,这由LDpred2在扩展变体集上的结果证明。尽管如此,我们的结果确实表明,当采取适当应用严格的低MAF变量滤波和p值阈值化)。在只有概要数据和/或缺乏足够的个人数据的情况下尤其如此。深度学习模型MLP和CNN基于比其他方法更宽松的模型假设,并且能够建模数据之间更复杂的关系增加的模型8Cell Genomics2,100086,2022会开放获取文章MONO%单核细胞百分比白细胞0.901.730.19<2.2E-16 2.2E-161.37E-5表1. INTERVAL上血细胞性状的PG-性别相互作用试验的汇总统计量效应量P性状缩写性状名称性别(雄性)PGS(每SD)相互作用性别PGS相互作用EO#嗜酸性粒细胞计数0.013 0.091 0.012 2.2E-16 2.2E-16 2.20E-4红细胞压积3.68 1.70 0.51 2.2E-16 2.2E-16 3.50E-9HGB血红蛋白浓度1.48 0.56 0.24 2.2E-16 2.2E-16 2.2E-16HLSR#高光散射网织红细胞计数平均红细胞血红蛋白浓度0.00061 0.0019 0.00029 2.2E-16 2.2E-16 2.03E-50.70 0.74 0.14 2.2E-16 2.2E-16 2.63E-5PCT血小板压积-0.033 0.051-0.0057 2. 2 E-16 2.2E-16 4.59E-7PLT#血小板计数-29.10 56.20-7.53 2. 2 E-16 2.2E-16 1.71E-12红细胞网织红细胞分数%粤ICP备05016888号-1使用多元线性回归对INTERVAL队列中所有性状的PGS和性别之间的相互作用进行了测试:y=b0+b1* PGS +b2* Sex +b3*PGS*Sex,其中y是针对技术人工制品、季节、年龄和前10个遗传主成分调整的实际性状水平;使用EN(p值阈值= 1)对UKB样本构建PGS,并在模型中进行标准化有10个性状的交互作用项的p值超过Bonferroni显著性阈值10- 3,列于表中。SD,标准差。MLP和CNN的复杂性没有导致血细胞性状的PGS构建的改进,表明在这两个模型中明确引入非线性因子在这种情况下没有提供优势。然而,众所周知,定制网络结构的设计在深度学习中的特定任务中起着关键作用,这鼓励我们进一步设计和优化这些标准结构之外的网络,以构建PGS。同时,有人指出,现有深度学习框架在超高维基因型数据中的可扩展性问题因此,基于高效基因型数据格式的深度学习框架(例如,床格式在Plink30),可能代表该地区的未来努力我们证明,基于人群的样本可以通过这些血细胞性状的PGS进行分层,即使是在年龄和性别之间表现出实质性差异的性状这些观察结果可能提供治疗见解。例如,已知一些药物,如氯氮平和氨苯砜,31具有中性粒细胞减少症的副作用。中性粒细胞计数(NEUT#)PGS的顶部和底部五分位数之间的差异为~1,000 NEUT/微升;因此,个体可能具有遗传性降低的NEUT#的先验知识可能具有临床实用性,以指导药物治疗。同样众所周知的是,血细胞性状与一些复杂疾病的风险有关(例如,嗜酸性粒细胞计数和哮喘之间的关系5),这表明PGS可能有助于疾病风险预测的后续研究。该研究MLP和CNN是两种最常见和最基本的深度学习模型,之前的研究已经证明,在遗传预测方面的潜力。19,32,33本研究仅限于两种特定但常见的深度学习模型;因此,我们无法对整个深度学习方法在PGS发展 血 细 胞 性 状 方 面 的 应 用 提 出 结 论 性 建 议 。 进 一 步 优 化MLP/CNN结构并学习EN/BR方法的特点可能代表了该领域设计定制深度学习方法的未来此外,MLP或CNN结构在理论上有无限的可能性,因此在识别血细胞性状的最佳PGS模型时,我们必须将搜索限制这些配置的选择是基于深度学习研究34的建议以及之前关于神经网络在遗传预测中的应用的发现19,32虽然所采用的配置广泛覆盖了常见的MLP/CNN结构,但仍有可能存在其他可以构建更好的PGS的MLP/CNN结构,但未包括在研究中。此外,虽然本研究主要集中在血细胞性状的PGS开发上,但方法比较分析为其他细胞和分子性状的PGS开发提供了潜在的有用参考然而,这些方法对于其他表型可能表现不同,例如具有非常不同的遗传结构的复杂疾病。在这种情况下,将需要专门的研究,以确定一个适当的方法PGS建设的表型。血细胞性状和几种常见疾病的多基因基础的广泛共享与已知的性状水平的关联是一致的,并为未来的转化研究提出了潜在的富有成效的途径。例如,EO#和NEUT#都是类风湿性关节炎(RA)的重要风险因素,它们各自的PGS反映了这些关联。了解他们共同的遗传学和相应的PGSs可能使早期分层的个人在增加的风险EO%嗜酸性粒细胞百分比白细胞0.411.300.32<2.2E-16 2.2E-169.60E-11Cell Genomics2,100086,2022年1月12日9会开放获取文章图5.血细胞性状PGS与INTERVAL中6种常见疾病PGS的相关性研究在相关分析之前,对血细胞性状的PGSs进行了前10个遗传主成分的调整在INTERVAL样本中,在血细胞性状PGS和疾病PGS之间进行Pearsonr相关性分析,并且p值超过p = 10- 4的阈值(Bonferroni针对所有性状-疾病测试进行调整)的相关性测试被认为是显著的。与EO或NEUT相关的RA。这些见解代表了使用PGS询问疾病生物学的新方法。为了促进该资源的使用,我们已经在PGS目录中公开了使用EN构建的血细胞性状PGS(在p值阈值= 1的扩展变体集上,20总体而言,本研究评估了各种学习方法,使用个体水平的基因型数据构建血细胞性状的PGSs。我们展示了学习方法如何优于基于单变量分析的方法,包括通过调整相关性,交互作用和低MAF变量的影响。这项工作强调了超越PGS标准总结方法的重要性,特别是随着生物库规模的队列变得越来越普遍。我们已经向社区提供了这些PGS,证明它们可以对性别和年龄依赖的轨迹进行分层,并确定它们与各种常见疾病的共同多基因基础。未来的研究利用遗传变异的整体(例如,全等位基因谱和基因分型/测序位点的困难)可以提供这些性状的PGSs的进一步改进,并可以促进评价其临床有效性的进一步研究STAR+方法本文件的在线版本提供了详细的方法,包括以下内容:d关键资源表d资源可用性B电极导线触点B材料供应情况B数据和代码可用性d实验模型和子系统B研究队列d方法样本B数据质量控制B变体选择BSNP-SNP相关和相互作用检测B多基因评分方法B测量和超参数调整B在INTERVAL上推导疾病的PGSd量化和统计分析补充信息补 充 信 息 可 以 在 www.example.com 上 找 到 https://doi.org/10.1016/j 。xgen.2021.100086。致谢英国生物库数据访问在项目13745下获得批准,所有参与者都对健康研究表示知情同意。INTERVAL随机对照试验的参与者是在英国NHS血液和移植中心(www.nhsbt.nhs.uk)的积极合作下招募的,该中心支持现场工作和试验的其他要素。DNA提取和基因分型由国家健康研究所(NIHR)、NIHR生物资源(http://bioresource.nihr.ac.uk)和NIHR剑桥生物医学研究中心(BRC-1215-20014)共同资助。INTERVAL的学术协调中心得到了NIHR血液和移植研究单位捐赠者健康和基因组学的核心资金支持(NIHR BTRU-2014-10024),英国医 学 研 究 委 员 会 ( MR/L003120/1 ) 、 英 国 心 脏 基 金 会 ( SP/09/002 、RG/13/13/30194 、 RG/18/13/33946 ) 和 NIHR 剑 桥 BRC ( BRC-1215-20014 ) 。 ( INTERVAL 试 验 的 研 究 者 和 贡 献 者 的 完 整 列 表 提 供 于 DiAngelanto nio,E.,汤普森,S. G.,Kaptoge,S.K.,Moore,C.,沃克,M. , Armitage , J. , Ouwehand , W.H. , 罗 伯 茨 , D.J. , 和 Danesh , J.;INTERVAL试验组[2017]。不同频率的全血捐献(INTERVAL)的效率和安全性:一项45000名献血者的随机试验Lancet 390,2360学术协调中心感谢献血中心工作人员和献血者参与INTERVAL试验。这项工作得到了英国健康数据研究的支持,该研究由英国医学研究委员会、工程和物理科学研究委员会、经济和社会研究委员会、卫生和社会保健部(英格兰)、苏格兰政府卫生和社会保健局首席科学家办公室、威尔士政府卫生和社会保健研究和Y. X. 英国经济和社会研究理事会(ES/T013192/1)的支持。D. V.由NIHR血液和移植研究单位在捐赠者健康和基因组学(NIHR BTRU-2014-10024)资助。S.C.R.由BHF计划资助(RG/18/13/33946)。P.A.该研究由NIHR血液和移植研究单位捐赠者健康和基因组学(NIHR BTRU-2014- 10024)资助。T.J. 由NIHR剑桥生物医学研究中心资助10Cell Genomics2,100086,2022会开放获取文章(BRC-1215-20014)。J.G.由贝克心脏和糖尿病研究所共同资助的拉筹伯大学研究生研究奖学金和拉筹伯大学全额研究奖学金支持。D.J. R由NHS血液和移植研究与发展基金和牛津生物医学研究中心(血液学主题)支持。J.D. 拥有英国心脏基金会教授职位和NIHR高级研究员奖。M.I.由Munz心血管预测和预防主席、Horizon 2020研究和创新计划“干预”(101016775)、英国经济和社会研究理事会(ES/T013192/1)和NIHR剑桥生物医学研究中心(BRC-1215-20014)支持。这项研究得到了维多利亚州政府运营基础设施支持(OIS)计划的支持。所表达的观点是作者的观点,不一定是NHS、NIHR或卫生和社会护理部的观点。作者贡献M.I. 和Y.X.构思并设计了这项研究。Y. X.,D.V.,S.C.R. 私人助理,TJ和J.G.进行了分析。A.S.B. 世界卫生组织,DJ R 紧急药物管理局,J.D.,和NS。提供了数据。M.I.国家安全局J.D.,和A.S.B.监督工作。Y. X. 和M.I.在所有作者的参与下写了这篇论文。申报利益P.A.是Regeneron制药的全职员工A.S. B已获得阿斯利康,拜耳,Biogen,Bio- Marin,Bioverativ,默克,诺华,Regeneron和赛诺菲的资助(本工作之外)。J.D.报告来自Merck Sharp Dohme(MSD)的赠款、个人费用和非财务支持;来自诺华的赠款、个人费用和非财务支持;来自辉瑞的赠款;以及来自阿斯利康的赠款。J.D. 担任诺华国际心血管和代谢咨询委员会成员(自2010年起),担任英国生物库指导委员会成员(自2011年起),是伦敦MRC国际咨询小组(ING)成员(自2013年起),伦敦MRC高通量科学组学小组成员(自2013年起),赛诺菲科学咨询委员会成员(自2013年起),诺华国际心血管和代谢研究与开发组合委员会成员,并曾是Astra Zeneca基因组学咨询委员会成员(2018年投稿时间:2020 - 10 - 20修订日期:2021受理时间:2021发布时间:2022引用1. 联邦调查局詹森(2009年)。 红细胞在组织氧输送中的双重作用:氧载体和局部血流的调节剂。J. Exp. Biol. 212,3387-3393。2. Jenne,C.N.,乌鲁蒂亚河,和Kubes,P.(2013年)。血小板:桥接止血、炎症和免疫。Int. J. Lab.血液。35,254-261.3. Nagata , S. ( 2018 年 ) 。 凋 亡 和 凋 亡 细 胞 的 清 除 Annu. Rev.Immunol.36,489-517.4. Astle,W.J.,Elding,H.,江,T.,Allen,D.,Ruklisa,D.,Mann,A.L.,Mead,D.,Bouman,H.,Riveros-Mckay,F.,Kostadima,硕士,等(2016)。人类血细胞性状变异的等位基因景观及其与常见复杂疾病的联系。细胞167,1415-1429.e19。5. 卡斯特罗,M.,Zangrilli,J.,韦克斯勒,医学博士,贝特曼,E. D.,G.G.,Bardin,P.,墨菲,K.,Maspero,J.F.,O'Brien,C.和Korn,S.(2015年)。瑞利珠单抗治疗控制不佳的哮喘伴血嗜曙红细胞计数升高:来自两项多中心、平行、双盲、随机、安慰剂对照、III期试验的结果柳叶刀呼吸Med.3,355-366.6. 萨 德 洛 角 ,Gallacher , J. , 艾 伦 , N., 贝 拉 尔 , 五 , Burton ,P. ,Danesh,J.,Downey,P.,Elliott,P.,Green,J.,Landray,M.,等(2015年)。英国生物样本库:这是一个开放获取的资源,用于确定各种复杂的中老年疾病的原因。PLoS Med. 12,e1001779。7. 拜克罗夫特角,弗里曼,C.,Petkova,D.,班德,G.,埃利奥特中尉夏普,K.,Motyer,A.,Vukcevic,D.,Delaneau,O.,O'Connell,J.,等(2018)。英国生物库资源与深表型和基因组数据。Nature562,203-209.8. Moore,C.,Sambrook,J.,沃克,M.,托尔金,Z.,Kaptoge,S.,Allen,D.,Mehenny,S.,Mant,J.,Di Angelantonio,E.,汤普森,S.G.,等人(2014年)。 INTERVAL试验旨在确定献血间隔是否可以安全和可接受地缩短以优化血液供应:一项随机对照试验的研究方案。试验15,363.9. Torkamani,A.,Wineinger,N.E.,和Topol,E.J.(2018年)。多基因风险评分的个人和临床效用。遗传学国家牧师19,581-590。10. Vuckovic,D.,Bao,E.L.,Akbari,P.,Lareau,CA,Mousas,A.,江,T., 陈文H、Raffield,L.M.,Tardaguila,M.,霍夫曼,J.E.,等; 百万退伍军人计划(2020年)。血液性状和疾病的多基因和单基因基础。单元182,1214-1231.e11。11. 金-赫尔穆特,S.,和Lappalainen,T.(2016年)。血液性状的协调遗传功能。167号牢房1167 - 116912. 南卡罗来纳州里奇,Lambert,S.A.,Arnold,M.,Teo,S.M.,Lim,S.,Scepanovic,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功