没有合适的资源?快使用搜索试试~ 我知道了~
血细胞特征的遗传学分析和多基因评分方法
会开放获取预览多基因评分开发在大规模生物银行的时代Vincent Plagnol1,*1Genomics plc,King Charles House,Park End Street,Oxford OX1 1JD,UK* 通讯地址:vincent.genomicsplc.comhttps://doi.org/10.1016/j.xgen.2021.100088在本期的《细胞基因组学》中,Xu et al.报告了对26种血细胞性状的遗传学的全面分析,利用来自两个大型生物库的数据构建并提供机器学习优化的多基因评分(PGS)。除了提供这些特征的生物学和临床关联的见解外,作者还对PGS构建方法进行了评估并提供了建议。血液测量在医疗保健和许多疾病的关键生物标志物中无处不在。它们的广泛可用性使得能够构建将血液性状与遗传数据相结合的大型队列,这反过来又为广泛的全基因组关联研究(GWAS)提供了动力。这些GWAS1已经确定了一系列血液测量的17 , 000 多 个 遗 传 关 联 。 多基 因 评 分(PGSs;或多基因风险评分[PRS](当靶向疾病性状时)被构建以估计许多遗传变异对表型的共同影响。虽然PRS通常用于识别具有常见疾病风险的个体,但PGS也可用于量化遗传因素对数量性状的贡献。现在,Mike Inouye和他的同事2在本期的《细胞基因组学》中报道了一项针对26种血细胞性状的PGS构建方法的综合评估。他们提供了对血细胞性状遗传基础的见解,开发和评估了一系列用于PGS构建的预测方法,并提供了优化的PGS资源。更广泛地说,他们的工作指导了使用汇总或个体水平遗传数据集构建PGS的最佳方法。之前在大规模队列中进行的GWAS(包括UK Biobank)3已证明血细胞性状是可遗传的,并确定了许多遗传关联。最新的大规模荟萃分析执行通过Vuckovic等人1已收集了约17,000份名单29种血细胞表型超过7,000个基因位点在目前的研究中,为了评估预-Dictive能力,这些遗传协会,徐等。2分析了英国生物银行3和INTERVAL4数据集中可用的26种血液性状他们使用一系列方法学,使用UK Biobank数据构建PGS进行培训,然后在IN-TERVAL队列中评估这些PGS,IN-TERVAL队列扮演培训外评估队列的角色。INTERVAL数据集中的评价证实了遗传学对这些血液性状的个体间变异性的重大贡献。INTERVAL评价中的PearsonPGS和血液性状之间的关系范围为~0.17(白细胞嗜碱性粒细胞百分比-年龄)~~0.6(平均值)。血小板体积)。使用INTERVAL数据集和带有性别交互作用项的回归分析例如,血红蛋白浓度的PGS的一个标准偏差预测平均差异为1.48在男性中为2g/dL,在女性中略高于2g/dL。遗传学对血液性状的预测能力很重要,因为这种遗传成分有可能改变血液测试的解释。具体而言,是否只有生物标志物的绝对值重要,或者考虑测量的血细胞性状与其遗传预测值之间的差异是否有益?与这个问题相关的是,纳入HBA1c水平的PGS已被证明可以通过改变每个个体的T2D诊断的HBA1c阈值来改善2型糖尿病(T2D)诊断。5因此,PGS的预测能力越大对于给定的血液性状,改善临床解释的机会越大。为了了解疾病和血细胞性状之间的共同遗传学,Xu et al. 2还评估了他们的PGS与六种常见疾病PRS(哮喘、过敏、冠状动脉疾病、克罗恩病、类风湿性关节炎和精神分裂症)之间的相关性。作者发现了几种统计学上显著的相关性,这些相关性捕获了实际特征之间的已知关联,例如哮喘与嗜酸性粒细胞计数/嗜酸性粒细胞百分比之间,或白细胞计数与克罗恩病之间。在这些有趣的发现中,单核细胞计数PGS和精神分裂症PRS之间的关联支持炎症在精神分裂症病因学中的作用,应该值得进一步探索。Xu等人2还提供了有用的见解,现有的方法- ologies的性能PGS建设通过评估六个PGS的方法。这些方法包括修剪和阈值化(P+T)方法,PGS构造中的当前标准,以及五种监督学习方法:LDpred2、6弹性网(EN)、贝叶斯脊(BR)、多层感 知 器 ( MLP ) 和 卷 积 神 经 网 络(CNN)。为了支持进一步的评估和基准测 试 , 作 者 在 GitHub 公 共 存 储 库( https://github.com/xuyu-cam/PGS-BC-Traits-Using-ML-DL)上编写了构建这些PGS的代码。他们还发布了PGS目录中26种血液性状的PGS模型。7Cell Genomics2,100088,January 12,2022<$20211这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。会开放访问预览在说明评价结果之前,应强调评价方法的三个主要特点首先,INTERVAL生物样本库被用作“训练外”评估队列,允许作者发现方法何时过拟合训练队列(在这种情况下是英国生物样本库)。其次,在运行机器学习工具包之前执行的变体选择步骤包括选择变体之间的交互项,这由EN和BR方法优雅地处理并且最有可能有助于其有效性。由于相互作用或遗传上位性的概念通常令人困惑且难以解释,因此应注意,这些相互作用术语很可能捕获关于缺失变体或单倍型信息的占主导地位的统计学概念,而不是生物学上有意义的相互作用变体。第三,在最后的分析中,作者通过调整模型中包含的变量数量来然后,他们评估了这个变量空间对最适合大变量集的三种方法(EN,LDpred2和P+T)的性能的影响。我们从这种方法论的评估中学到了什么?首先,与其他PGS评估工作一致,8机器学习方法(LDpred2、EN、BR)的预测性能超过了更简单的P+T方法的性能。第二,包括非线性项的更复杂的模型(例如,CNN和MLP)未提供额外的预测获益。因此,围绕多应用深度学习方法开发的令人难以置信的兴奋尚未转化为PGS构建的预测效益。9第三,也是最有用的,这个评估的教训是,在特定条件下,EN的性能可以超过LDpred2的性能。当两件事联合发生时,这种性能差距变得可测量:使用更大的遗传变体空间和在训练外的INTERVAL评估集上评估预测模型。这一发现的一个潜在解释是,当在复杂的变量空间上进行训练时,LDpred2似乎比EN更容易过拟合。这个结果很有趣,因为LDpred2是PGS构造最常用的方法之一这些发现为PGS方法的未来评估和基准测试提供了基线,并为开发可利用个人水平数据的PGS方法提供了额外的动力。然而,在得出EN应成为PGS施工选择方法的结论之前,需要谨慎。需要注意的是 , 与 本 文 评 估 的 其 他 方 法 不 同 ,LDpred2和P+T设计为使用GWAS汇总统计进行训练,并且需要最低限度地访问个人数据。这种训练数据比个人层面的数据更容易分享仔细检查Xu等人的结果2表明个体水平数据方法相对于LDpred2的益处通常是有限的并且依赖于性状。因此,如果不能使用汇总统计,增加的方法灵活性可能无法克服训练样本量减少的问题。在某种程度上,这里研究的血细胞性状数据集是非典型的,并且由于UK Biobank提供的样本量极大的训练集,因此基于个人水平数据的方法更受然而,对于大多数疾病,特别是低发病率疾病,具有个体水平数据的前瞻性队列,即使像英国生物库那样大目标病例对照队列通常对PRS培训更有价值,但共享个体水平数据的频率较低,因此更强调汇总统计方法。最后,像LDpred2这样的方法需要大量的调整和优化。其观察到的过拟合可能反映了变量滤波和参数优化中的次优选择。不同的选择可以缩小甚至扭转本研究中观察到的绩效差距。在牢记上述警告的同时,本研究为使用基于个人水平数据的灵活方法构建PGS/PRS打开了大门,前提是有足够的培训数据可用。虽然徐等人的工作。2使用两个生物库,这是非常好的动力为血细胞性状,PRS培训大多数疾病需要相当大的样本量比英国生物库(或任何其他单一生物库)目前可以提供有效的。跨多个生物库进行个人层面数据训练的前景是否现实?虽然目前的研究能够在两个生物库中使用血细胞性状的个人水平数据,但总体而言,缺乏跨生物库和大型队列研究的个人水平数据共享一直是PRS培训的主要障碍。使用联邦交叉生物库数据集来训练和评估PRS而不必建立复杂的数据共享方法的观点是令人兴奋和前瞻性的,并且有可能通过实现更多预测模型的推导来显著影响基因组预测和医学。然而,与跨多个生物库的PRS训练相关的技术挑战是巨大的,而不需要在单个计算实例中组合这些数据集。例如,全球生物库Meta-分析倡议(GBMI10)最近的努力仍然依赖于GWAS的初始步骤,其主要分析基于汇总统计而不是个体水平的数据。人们可以想象这样的技术解决方案,其中PRS训练在每个生物库中独立进行,并且由此产生的见解(但不是原始数据)在中央计算实例中聚合。然而,这一愿景仍然是一个相对遥远的未来。PGS方法学发展的未来,以及更广泛地说,基因组预测与生物库和大规模队列数据集日益增加的可用性有关。需要开发适当的软件基础设施,以最大限度地发挥数据的价值。根据兴趣特征,个人水平的数据方法可能会增加汇总统计方法的价值,但最佳决策将取决于数据的可用性以及研究社区采取的方法路径。Xu et al. 2有助于这一旅程,并将为PGS方法开发的未来步骤提供信息,最终目标是支持未来的临床用例。申报利益Vincent Plagnol是Geno-Plagnol plc的全职员工。2Cell Genomics2,100088,2022预览会开放获取引用1. Vuckovic , D. , Bao , E.L. , Akbari , P. ,Lareau,CA,Mousas,A.,江,T.,Chen,M.H.,拉夫菲尔德, L. M.,Tardaguila,M., 霍夫曼,J.E., 等; 百万退伍军人计划(2020年)。血液性状和疾病的多基因和单基因基础。 单元182,1214-1231.e11。2. 徐,Y.,Vuckovic,D.,南卡罗来纳州里奇,Akbari , P. , 江 , T. , Grealey , J. ,Butterworth,A. S.,奥韦-汉德,W. H.,罗伯茨,D.H.,Di Angelantonio,E.,等(2022年)。机器学习优化了血细胞性状的多基因评分,对性别特异性轨迹进行分层,并识别与疾病的遗传相关性。细胞基因组学2,100086-1-100086-12。3. 拜克罗夫特角,弗里曼,C.,Petkova,D.,班德,G.,埃利奥特中尉夏普,K.,Motyer,A. , Vukcevic , D. , Delaneau , O. ,O'Connell,J.,等(2018)。英国生物库资源与深表型和基因组数据. Nature 562,203-209.4. Moore,C.,Sambrook,J.,沃克,M.,托肯,Z.,Kaptoge,S.,Allen,D.,梅汉尼美国,Mant,J.,Di Angelantonio,E.,汤普森,S. G.,等(2014年)。确定献血间隔是否可以安全和可接受地缩短以优化血液供应的INTERVAL试验:一项随机对照试验的研究方案 试验15,363.5. Dornbos , P. , Koesterer 河 , Ruttenburg ,A.,科尔,J.B.,Leong,A.,Meigs,J.B.,弗洛雷斯,J.C.,Rotter,J.I.,Udler,M.S.,和Flannick,J.; AMP-T2D-GENES Consortia(2021)。多基因综合评分为21,293分,22种常见变异显著提高了基于血红蛋白A1C水平的糖尿病诊断。medRxiv.https://doi.org/10.1101/2021.11.04.21265868.6. Prive,F.,Arbel,J.,和Vilhja 'lmsson,B.J.(2020)。LDpred2:更好,更快,更强。生物信息学36,5424-5431。https://doi.org/10的网站。1093/bioinformatics/btaa 1029.7. Lambert,S.A.,吉尔湖,Alfrep,S., 南卡罗 来 纳 州 里 奇 , 徐 , Y. , Buniello , A. ,McMahon,A.,Abraham,G.,Chapman,M.,帕金森,H.,等(2021年)。多基因评分目录是一个开放的数 据 库 , 用 于 重 复 性 和 系 统 性 评 价 。 Nat.Genet. 53,420-425。8. 疼痛,O.,格兰维尔,K.P.,Hagenaars,S.P., S. ,Furtjes,A.E. ,Gaspar,H.A. ,科尔-曼,J.R.I.,Rimfeld,K.,布林,G.,普洛明河,等(2021年)。参考标准化框架内多基因 预 测 方 法 的 评 价 。 PLoS 基 因 组 17 ,e1009021。9. Bellot,P.,de Los Campos,G., 和Pe 'rez-En-ciso,M.(2018年)。深度学习可以改善复 杂 人 类 特 征 的 基 因 组 预 测 吗 ? Genetics210,809-819.10. 王玉,难波,S.,Lopera,E.,Kerminen,S.,Tsuo,K.,La?ll,K.,Kanai,M.,周文 ,吴 , K.-H 、 Fave ', M.- J., 等( 2021年)。全球生物库分析为计算不同群体的多基因 风 险 评 分 提 供 了 经 验 。 medRxiv.https://doi.org/10.1101/2021.11.18 的 网 站 。21266545。细胞基因组学2,100088,2022年1月12日3
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功