GWAS数据预处理和新方法克服挑战

52 浏览量更新于2024-01-09 收藏 798KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁24（2021）100586数据预处理和全基因组关联研究（GWAS）方法的新方向，以克服持续的挑战Zahra Mortezaei*，Mahmood Tavallaei**伊朗德黑兰Baqiyatallah医科大学人类遗传研究中心A R T I C L EI N FO保留字：全基因组关联研究（GWAS）测序机器学习回顾性关联分析组织信号罕见变异A B S T R A C T全基因组关联研究（GWAS）是一种标准的基于人群的技术，通过发现遗传标记的性状变异和等位基因频率之间的相关性来识别复杂疾病的遗传基础。本文旨在通过回顾新的技术和方法来帮助填补数据预处理和GWAS方法中的空白。在GWAS之前执行的数据预处理在以下方面提出了挑战：Hardy-Weinberg（H-W）估计、基因分型和解释样本结构等因素。最近的发展，克服这些挑战：似然比测试的H-W估计，用于基因分型的测序和用于处理样品结构的技术。传统的统计方法不能提供一种有见地地解释从高通量技术产生的数据的方法，因此，在GWAS方法的新方向进行审查，使用有效的统计方法，这是灵活的技术进行遗传关联分析时，如非随机抽样或人口结构的因素发生。尽管这些方法的发展，基因分型成本和大型数据集分析能力的提高，促使研究人员检查组织特异性信号。本文讨论了如何前瞻性和回顾性关联分析可以用来考虑二元性状，解决非随机确定，并增加大型数据集分析的能力。重要的是，对于疾病的易感性，罕见变异可以代表很大一部分的遗传标记，本文综述了一些关联方法的罕见变异检测。总之，本文中回顾的GWAS数据准备和方法的最新发展可以克服该领域当前的大多数挑战，也将解决未来的挑战。1. 介绍全基因组关联研究（GWAS）是一种基于人群的技术，用于识别整个基因组中遗传标记的性状变异和等位基因频率之间的相关性[1]。本文旨在通过回顾新的技术和方法来填补GWAS预处理和方法的空白。最初，审查了减少时间和成本并且通过使用下一代测序（NGS）开发的新基因分型方法。然后，在数据预处理中，在样本结构未观察到的情况下，回顾了几种方法来解释祖先或家族相关性。传统的统计方法不能用于对高吞吐量技术生成的数据进行深入的预处理[2]。GWAS方法中的新方向进行了审查，使用强大的机器学习方法，如基于可能性的方法，可用于从GWAS中获得更有价值的结果。机器学习的目标之一可以是早期诊断和预测，可用于从遗传数据中发现遗传性[2]。另一方面，在遗传关联研究中，忽略变量成分、群体结构、非遗传效应、基因-环境相互作用、上位性和基于表型的确定的抽样设计将降低统计功效，导致1型错误和表型模型错误设定。本文中综述的非随机确定常见时可使用的方法是前瞻性和回顾性研究[3]。由于环境和多种遗传因素在复杂疾病的病因学中起着重要作用，因此对一些考虑组织特异性信号的GWAS方法进行了综述。另一方面，罕见变异对疾病的易感性有很大的贡献，本文综述了一些检测罕见变异的GWAS方法。* 通讯作者。** 通讯作者。电子邮件地址：zmortezaie@gmail.com（Z. Mortezaei），tavalla.mah@ gmail.com（M.Tavallaei）。https://doi.org/10.1016/j.imu.2021.100586接收日期：2021年2月19日;接收日期：2021年4月8日;接受日期：2021年4月27日2021年5月15日网上发售2352-9148/©2021的作者。发表通过 Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：www.elsevier.com/locate/imuZ. Mortezaei和M. 塔瓦莱医学信息学解锁24（2021）10058622. 连锁分析和关联作图表型变异是由个体之间的遗传差异决定的，因此由其DNA序列编码。许多表型的特点是数量的性质和复杂的病因学，这意味着他们的突变空间非常大，或多个遗传和环境原因有助于他们的变异。将表型多样性和遗传研究捕获的基因型多样性联系起来可以提供基因型到表型的映射。发现表型性状的遗传基础可以为表型性状的遗传结构及其遗传模式提供前所未有的观点[4]。遗传连锁分析是一种基于遗传标记在基因组中的物理接近性来评估遗传标记在世代中一起遗传的趋势的有力工具。这种分析可以应用于罕见疾病，以成功识别贡献遗传变异[5，6]。连锁分析涉及使用整个基因组的遗传标记以及受影响家庭的基因型，以揭示遗传标记与疾病的分离。连锁分析已被广泛应用于检测常见变异。连锁分析仅依赖于一个或两个世代，并且当一些亲本基因型数据缺失时，不正确的标记等位基因频率会增加I型和II型错误[3]。连锁分析的优点是它能够检测到具有大效应的变异一般来说，遗传连锁分析的统计功效是采用这种分析的研究中的主要关注点，并且诸如基因分型、等位基因频率、遗传效应的强度以及基因座或性状的异质性等因素是这种研究的基础[5，6]。当一种疾病独立地与多个基因座连锁时，就会出现基因座异质性。疾病异质性意味着疾病具有不同的亚型、阶段或等级，并且不同的基因和功能过程可能与不同的疾病等级或亚型有关[7]。关联分析是一种基于群体的替代作图方法，可用于使用病例对照个体检测小效应变异。世代数的差异是连锁分析和关联分析之间最重要的区别之一。在无关个体的群体中进行关联分析，以评估测量的表型和基因分型的遗传多态性之间的关联。GWAS方法是一种基于群体的技术，用于识别整个基因组中遗传标记的性状变异和等位基因频率之间的相关性。图1中总结的连锁和关联分析之间的差异可能导致使用关联分析时对罕见变异的估计不准确，这将在本综述的最后一节中详细解释[1]。首先，计算亲属矩阵的系数，然后比较不同的统计方法，以选择一个合适的GWAS和识别单核苷酸多态性（SNP）与特定疾病显着相关。这些研究在个性化医疗中很有用，其目的是确定特定性状的遗传风险因素和生物学基础[8]。基于单SNP分析，GWAS方法通常使用单个SNP以评估它们与感兴趣的表型的关联然而，对于大多数复杂的表型性状，一个无法解释的遗传力的比例是归因于性状的多基因性质。为了解决这个问题，已经开发了一些多位点关联技术来测试多个遗传变异对基因、途径和性状的联合影响[9]。最初，GWAS方法被应用于人类疾病，取得了巨大进展。此外，GWAS已经扩展到动物遗传学和育种领域，在这些领域中有大量的SNP可用[10]。例如，在家畜育种中，GWAS具有Fig. 1.连锁分析和关联作图。a.世代数的差异是连锁分析和关联作图的区别之一。B.这两种方法的另一个不同之处在于连锁分析是基于物理接近性，而关联分析是基于等位基因频率与性状变异之间的相关性。C. 两种方法之间的另一个区别是检测具有主要效应或小效应的常见变异;已经开发了罕见变异关联分析。D.罕见疾病的连锁分析与常见疾病的关联研究是两者的另一个区别。Z. Mortezaei和M. 塔瓦莱医学信息学解锁24（2021）1005863已被用来确定区域与多效效应的数量性状，如奶牛产奶量和肉牛的平均日增重。GWAS方法可以揭示复杂商业性状的遗传学，例如家畜的遗传学，从而允许进行标记相关选择[11]。与连锁分析的统计功效相似，旨在检测潜在基因座的关联研究的统计功效取决于可用的样本量、等位基因频率、效应量、基因座和疾病异质性以及基因分型。选择适当的SNP阵列以增加基因组覆盖率可以导致更相关的基因座的作图。在欧洲血统的人群中，更密集的阵列可以在真正的关联区域提供更显著的SNP。尽管有饱和的GWAS阵列可用，但使用最新的单倍型参考联盟小组[12]对这些人群进行估算对于更多的SNP有一些好处。对于连锁和关联分析，疾病异质性对统计功效和检测潜在基因座的能力具有负面影响，因为每个基因座可能仅确定病例的一个子集，并且在连锁或关联分析中一次考虑一个SNP仅揭示其边际效应。增加连锁或关联分析的能力和增加真实基因座的边际效应的一种方法是遗传富集。这包括选择表型的特殊特征，例如复发，早发或家族史的病例[1]。3. GWAS数据预处理在进行遗传关联研究之前，需要对整个基因组的局部连锁不平衡（LD）结构进行定量和评估。为了鉴定用于进行GWAS的合适的标签SNP及其基因型并研究LD模式，必须进行在小的子组中对大量SNP进行基因分型的劳动密集型过程。这个过程通常由几个研究人员对相似的基因组区域进行，导致高度冗余。因此，国际HapMap项目于2003年开始估计基因座对之间的LD [13]。大规模的项目，如1000个基因组计划[14]和国际HapMap计划在过去的5-7年中，已被用于不同的人群[15]。人类基因组单体型图计划的努力和标签SNP的选择降低了基因分型成本，并导致相关技术的重大改进。来自早期适当GWAS的信息被合并并用于开发具有足够覆盖整个基因组的SNP芯片。所得到的SNP芯片已用于最近的研究和大多数种族在整个基因组中搜索疾病基因座[16，17]。HapMap计划建立了最重要的功能遗传数据库，为表型性状的遗传关联分析和遗传原因预测提供了参考。比如说，不同群体的基因型数据可以从 HapMap 网站（http://hapmap.ncbi.nlm.nih.gov）下载[18此外，可以获得特定人群的SNP等位基因频率，并应用于比较和进一步分析[21]。针对特定人群的单倍型标记SNP，可用于关联研究也可从HapMap [22]获得，不同种族群体之间的遗传关系可以使用HapMap结果[23]进行检查。基于SNP之间LD的关联研究的估计可以揭示LD块中一起遗传的相关SNP [24]。遗传关联研究测试病例和对照等位基因频率之间的差异。为了确保病例对照状态是此类研究的唯一区别特征，关键是所有病例和对照样本均选自具有相同祖先的相同人群。不这样做可能导致误报，即，遗传变异和数量性状之间的虚假显著关联源于群体祖先的差异[1]。此外，过滤掉低质量的SNP可以最大限度地减少GWAS中的偏差。次要等位基因频率（MAF）、缺失呼叫率（MCR）和Hardy-Weinberg平衡（HWE）是用于SNP过滤的常用度量。与HWE的任何偏离可能是基因分型错误的结果。关联研究和许多其他方法都依赖于哈代-温伯格（[25]. 因为X染色体上的遗传标记与如PLINK软件[ 26 ]中所应用的常染色体上的那些，仅考虑雌性进行H-W比例测试。此外，在群体遗传学研究中使用的“遗传学”R软件包[ 27 ]不区分常染色体和X染色体上的标记。此类分析是不充分的，并在偏离H-W比例的测试中产生偏差。因此，考虑男性和女性的四个测试常染色体和X染色体之间的区别已经提出了遗传插补通常用于提高关联研究的效力。对于常见变体，预过滤过程通常不具有关于插补准确性的主要益处，并且实际上可能损害插补准确性，因为预过滤过程潜在地削弱LD结构的强度，而插补算法通常取决于可用和缺失基因型之间的LD结构。例如[29]，研究了使用预插补过滤时MaCH和IMPUTE [30，31]等插补算法的性能，作者得出结论，涉及HWE的预过滤过程需要非常严格的截止值。在进行任何下游统计分析之前，如果已将此类限制性预过滤应用于插补，则额外的插补后质量建议控制。有了这些信息，H-W比例检验先验对于插补步骤，可能没有必要，但可用作插补后质量控制程序[32，33]。3.1. 测序法基因分型确定个体遗传变异的过程称为基因分型，并且根据可用资源和感兴趣的变异，可以使用不同的方法进行基因分型。使用基因分型芯片是一种准确有效的方法，可以一次搜索许多常见的变体[25]。使用具有大的整体覆盖率和许多SNP的芯片的密集阵列可用于某些人群，例如非洲人，其基因组有更多的时间进行重组[34]。与密集阵列相反，特定区域的计算机基因分型可以提供有限数量的显著SNP [12]。为了研究遗传变异，已经开发了利用NGS的减少测序和时间成本的基因分型的新的替代方法。现代测序技术通过提高速度和分辨率极大地改善了遗传图谱。为了进行GWAS等研究，测序基因分型（GBS）是一种低成本的方法，可以帮助揭示SNP [25]。事实上，通过GBS可以进行大规模群体遗传分析，以识别遗传变异。尽管GBS是一种成本有效的方法，但由于大量缺失数据，其相关数据分析复杂且需要复杂的生物信息学。已经开发了一些生物信息学工作流程来分析GBS数据，但需要额外的软件包来降低此类数据的复杂程度。GBS数据分析平台包括Fast-GBS、Stacks、GB-eaSy、IGST和Tassel-GBS [35，36]。3.2. 样本结构通过数据预处理，GWAS数据分析的有效性随着样本数量的GWAS可以分析样本的临床状况和单一等位基因变异之间的联系作为-关联规则挖掘（ARM）可用于鉴定等位基因变体的多重关联。如表1所示，GWAS关联规则挖掘Spark（GARMS）是一个可扩展的软件框架，包括两个步骤，预处理和挖掘频繁项集的关联规则[37]。已知或未知样品结构，也就是说，祖或家族性Z. Mortezaei和M. 塔瓦莱医学信息学解锁24（2021）1005864表1GWAS数据预处理GWAS数据预处理的阶段和方法。预处理阶段人为干预。机器学习方法也可以应用于执行单个或多个SNP关联研究，以识别基因型-疾病关系[45]。如表2所示，GWAS的机器学习方法从简单回归分析到随机确定特定人群使用HapMap项目森林、深度学习模型或其他复杂的集成模型[46]。另一方面，支持向量机样本选择从同一人群中选择病例和对照样本，机器可以被应用到执行 GWAS 当结合回归分析[2]。低质量SNP过滤Hardy-Weinberg平衡（HWE），以避免基因分型错误血统次要等位基因频率（MAF）、缺失检出率（MCR）似然比检验、卡方检验、排列检验和精确检验当与疾病风险相关的基因座出现多个致病变异时，可以进行条件分析。此外，可以使用贝叶斯方法对疾病相关变体进行优先排序[47]。例如，以前对乳腺癌的荟萃分析表明，遗传插补MaCH，IMPUTE当一个位点周围的多个信号被通过测序数据分析基因分型利用主成分分析Fast-GBS、Stacks、GB-easy、IGST和Tassel-GBS广义线性混合模型关联检验（GMMATs）、病例对照回顾性关联检验（CARAT）涉案在这些实施例中，应用了条件分析，并表明用GWAS方法鉴定的一些变体没有显示出类似的残留关联，这可能导致了与功能变体的紧密联系[48，49]。GWAS的二进制性状综合R档案网络（CRAN）包，GMMAT，学习和评估关联模式（LEAP）和基于可靠性阈值的混合模型关联（LTMLM）统计处理挖掘值和噪声（Spark中的GWAS关联规则挖掘）GARMS关系，是关联研究中常见的混杂因素。在未观察到样本结构的情况下，可以应用线性混合模型（LMM），通过包括基于群体结构的主成分（PC）来解释祖先或家族相关性[38]。广义LMM是广义线性模型（GLM）和LMM的结合。广义线性混合模型关联检验（GMMAT）[39]和病例对照回顾性关联检验（CARAT）[40]适用于具有人群结构或分层的样本。在相关样本的情况下，必须小心使用PC分析，因为出现了具有低MAF和不稳定相关性矩阵的变体。因此，基于常见遗传变异的PC分析可用于测试测序数据中的群体结构[41]。参考文献[42]的另一项研究改进了关联研究的统计方法，减少了混杂人群结构的影响。因此，必须开发适当的方法来计算群体结构，以将测序数据应用于罕见变异关联研究。由于计算量大，GLM在二元性状的大规模GWAS通常是有限的。为了克服这些问题并进行适当的估计，已经提出了一些拟合算法，例如综合R存档网络（CRAN）包和GMMAT [39]。对于二元性状GWAS，非随机确定需要特别注意。已经提出了几种方法，例如学习和评估关联模式（LEAP）[43]和基于可靠性阈值的混合模型关联（LTMLM）统计量[44]，用于处理病例对照确定的二进制性状GWAS。作为LTMLM方法的扩展，关联统计LT-Fam [44]可用于病例对照评估。Wang等人先前的一项研究。[50]评估了使用非随机样本进行关联统计推断的效果。该方法包括使用非随机样本的基于似然的统计检验和给定另一个基因座处的基因型的一个基因座处的基因型的条件概率。对于该分析，假设标记和疾病位点的基因分离是随机交配的流行病。在一些实施方案中，所述基因组具有为的疾病在病例对照挑选的样本在非随机情况下，两个位点基因型的条件概率分布与特定群体的基因型分布基本一致，是估计群体遗传参数的可靠方法。因此，与其他评估方法相比，Wang等人[ 51 ]开发的方法产生了很大的改进LD在使用非随机样本的情况下。这些研究的一些例子在其他地方讨论[52，53]。对于这种关联分析，使用的群体遗传参数是LD（D）系数和标记和疾病位点的基因型分布，称为标记等位基因频率(P)和疾病等位基因频率（q）分别[51]。给定疾病基因型的标记基因型的条件概率分布和给定标记基因型的疾病基因型的条件概率分布用群体遗传参数表示。在该分析中，标记和疾病基因型的条件概率分布是潜变量。期望最大化（EM）算法可以用作估计具有潜在或不可观测变量的统计模型中未知参数的最大似然[54]。提出了一种基于似然的机器学习GWAS方法表2GWAS方法。执行GWAS的不同技术和一些方法。执行GWAS方法在家庭设计的情况下，娱乐最后，为了使为了使预处理部分更清晰，本部分中审查的方法总结在表1中。4. GWAS中的机器学习传统的统计方法无法提供一种方法，GWAS中的机器学习回顾性关联研究基于似然，随机森林，深度学习，支持向量机病例对照纵向二性状回顾性关联测验广义线性混合模型关联检验解释高通量技术产生的数据解释转录组PrediXcan的GWAS，全转录组关联研究和分析大数据，机器学习模型已经开发出来。机器学习有可能发现遗传信息中隐藏的模式，这些模式可以帮助揭示疾病的发病机制。“机器学习”是“人工智能”的同义词，在人工智能中，计算机可以通过从数据中学习来做出决策，罕见变异检测（TWAS）、汇总孟德尔随机化（SMR）、序列核关联检验（SKAT）、基于家族的SKAT（FamSKAT）、负担检验、最小p值优化滋扰参数扩展到亲属的评分检验（MONSTER）、系谱不平衡检验（PDT）、方差成分检验、综合检验、非阈值罕见（NTR）方法Z. Mortezaei和M. 塔瓦莱医学信息学解锁24（2021）1005865Wang等人[51]，并用于Mortezaei等人[55]关于帕金森病（PD）的研究。为了进一步分析GWAS的输出，研究了遗传力和包括或接近显著SNP的注释基因。类似地，这种基于可能性的机器学习GWAS可以应用于其他人群和不同的疾病，特别是在出现群体结构或非随机样本的情况下，有效地检测与复杂疾病相关的重要遗传基因座。4.1. 遗传力机器学习的目标之一可以是早期诊断和预测，可用于从遗传数据中发现遗传性[56]。GWAS主要集中在加性遗传效应上，但非加性效应在GWAS和遗传预测中的重要性也得到了研究。提高遗传研究的准确性和减少偏倚是考虑非加性遗传效应的两个好处[57]。例如，通过使用GWAS和基于群体的研究，已经在小鼠的产奶候选基因PUNX2附近鉴定出与产奶量相关的显性信号[58]。在人类中，通过使用基于似然性的GWAS方法，通过在似然性公式中用作系数的加性遗传因子，比较了PD从亲本到后代的遗传性或传递程度。此外，使用基于可能性的机器学习GWAS方法比较了群体之间的显性和隐性遗传因素，以确定特定群体中PD的遗传率[55]。如图2所示，GWAS的类似方法可用于不同疾病，并比较人群之间的遗传性。5. 回顾性关联分析在遗传关联研究中，如果采用抽样设计，忽略变量、群体结构、非遗传效应、基因-环境相互作用、上位性和基于表型的确定，会降低统计功效，导致1型错误和表型模型错误。例如，许多遗传变异对复杂性状的多基因性影响很小，多效性和多性状受到相同遗传变异的影响，如GWAS结果所示。另一方面，主动的基因-环境交互作用意味着个体根据受遗传影响的性状选择环境。因此，当一个特定的性状受到遗传学的影响时，基因多效性可以是环境介导的然后影响其他特征，它可以使个体倾向于特定的环境[59]。在这种情况下，并考虑到上述条件和协变量，许多方法的基础上的标准LMM的数量性状分析最近已经开发出来。协变量在二元性状的关联分析中起着重要作用，而二元性状的LMM不是一个指定的模型，这会导致性能低下。当非随机确定很常见时，可以使用的其他方法是前瞻性和回顾性研究。回顾性研究通常通过前瞻性研究来检查可能影响研究结果的因素。相比之下，前瞻性研究倾向于在一段时间内检查受试者以跟踪疾病发展[40，60]。当基于协变量和表型对基因型分布进行建模时，可将回顾性关联分析应用于表型模型错误指定[60]。然而，由于未知的性状模型和确定的强效应，重要的是要注意，由于基于协变量的确定，回顾性关联分析对表型模型错误指定的敏感性低于前瞻性关联分析[40]。回顾性二元性状关联映射的共同目标包括增加对表型模型错误指定的鲁棒性，例如确定，将表型建模为二元，适当的方差和均值，实现快速准确的计算，以及对各种类型的样本结构和相关协变量进行适当的校正。基于混合效应准似然框架的回顾性二元性状关联检验方法，病例对照回顾性关联检验（CARAT）由Jiang等人[40]提出，并应用于克罗恩病的全基因组分析。研究结果揭示了与克罗恩病具有多个独立关联信号的遗传区域，这些信号可用于识别风险因素。另一种回溯性二元性状关联作图方法有助于增加功率的称为CERAMIC，已用于解释部分缺失的数据[61]。基于方程的纵向二元性状回溯关联检验（LBRAT）被提出用于纵向二元表型的遗传关联研究，基于回溯广义线性混合模型的关联检验（RGMMAT）被发展为一种回溯评分方法。这两种方法都已应用于纵向队列中可卡因使用的GWAS，其中LBRAT检测到与可卡因使用显著相关的基因座，并能够提供对遗传结构的新见解[62]。总的来说，回顾性关联检验的结果可以用于进一步开发这种方法，并将其应用于不同的二元图二.来自GWAS的遗传性。加性遗传因子可以应用于GWAS，以估计特定表型的遗传力水平。如果一个性状在特定的群体中被发现是可遗传的，显性和隐性遗传因素可以用来推断后代获得该表型是否需要从一个或两个Z. Mortezaei和M. 塔瓦莱医学信息学解锁24（2021）1005866≥性状一般来说，基因分型成本和大型数据集分析能力的提高促使研究人员研究组织特异性信号。6. 考虑到组织特异性信号由于环境和多种遗传因素在复杂疾病的病因学中起着重要作用，因此要从遗传学角度研究复杂疾病，生殖系和非生殖系变异是至关重要的，需要加以考虑。非生殖系基因突变自发发生在在人的一生中体细胞的突变被称为体细胞突变。其中一些突变可以改变重要的细胞功能，这种类型的突变的逐渐积累可导致复杂的疾病，如癌症[63]。事实上，体细胞突变与癌症的关系已经得到了最广泛的研究，但当它们在生命的不同时间点或在产前阶段影响大脑发育时，它们也可能导致神经退行性疾病（ND）。例如，PD可能是PARK2、SNCA和编码Parkin的基因中的体细胞突变的结果[64]。在体细胞突变负荷的研究中，每个供体的体细胞突变数可用于进行GWAS。在正常的体细胞突变负荷下，参考文献[65]进行的第一次GWAS鉴定了约20个与体细胞突变负荷相关的位点和2个转录后修饰位点，该研究中鉴定的体细胞突变可能以组织特异性方式促进细胞增殖;该研究还鉴定了一些可能在启动肿瘤发生中起作用的候选基因。在检测癌症表型之前，当已经鉴定了活跃表达基因中的组织特异性突变时，已经进行了这样的分析。在转录后修饰水平，线粒体多态性信息可用于执行GWAS。可以进行线粒体tRNA的GWAS以验证体细胞突变调用集，其可以包括来自体细胞突变或RNA编辑的信号。此外，线粒体tRNA的GWAS可用于转录后修饰分析。肿瘤发生的起始在身体的不同组织中是不同的，在评估GWAS结果时需要考虑这一事实。由于这种分析的结果可以识别新的致癌基因或肿瘤抑制基因候选者，GWAS可以识别tRNA并搜索作为生物体水平变体的体细胞突变。通过检测肿瘤发生机制或新的癌基因，这种分析的结果可用于疾病检测和健康组织分化[65]。已经开发了转录组研究来测定大量个体的基因型和表达水平[66一项全面的跨组织调查，称为基因型-组织表达GTEX项目已经从大约1000个个体的多个组织样本中收集了DNA和RNA序列数据，以在转录水平上检查遗传变异[69，70]。为了估计表型变异，还可以使用称为PrediXcan的基因水平关联方法来测试基因表达水平的介导作用，该方法被开发用于阐明复杂疾病的生物学并整合来自转录组研究的知识。这是因为大多数性状关联是组织特异性的[71]。与PrediXcan类似，全转录组关联研究（TWAS）[72]和孟德尔随机化（SMR）分析[73]可用于估计表型和基因表达水平之间的关联。TWAS和PrediXcan方法之间的唯一区别是使用的实现和预测模型。在某些情况下，已经检测到特定性状和意外组织之间的关联;为了发现它们的机制，需要对组织集进行不可知扫描[74]。用于克罗恩病分子型GWAS的五种组学数据Pei等人[75]在一项研究中收集了与疾病相关的组织，然后对这些组织进行TWAS。使用R软件包deTS进行组织特异性富集分析（TSEA），用于收集表达GWAS检测到的基因的组织。在该研究中，MetaXcan方法用于TWAS并评估遗传调节的表达水平，结果揭示了与克罗恩病最相关的三种组织7. 罕见变异检测通过GWAS鉴定并显示与复杂性状显著相关的SNP遗传标记是MAF5%的常见变体[76]。然而，一些证据表明，罕见变异占与复杂性状相关的遗传变异的近95%[77]。罕见变异与疾病易感性密切相关;因此，使用多位点关联的SNP之间的相互作用在识别罕见变异[78].大多数用于罕见变异检测的方法被分类为核心关联测试或负担关联测试[79可用于检测罕见变异的核关联方法之一是序列核关联检验（SKAT）[82]。基于家庭的SKAT（FamSKAT）[83]也可以用来测试关联。对于相关样本，由于大多数遗传变异的因果效应和效应的方向，负担测试具有比FamSKAT更高的功效[25]。其他方法最初用于关联测试的罕见变异无关的样品已扩展到相关的样品。例如，由Jiang和McPeek [84]开发的扩展至亲属的最小p值优化滋扰参数评分检验（MONSTER）方法包括FamSKAT和负担检验的特征组合，并且具有比每种方法更高的功效系谱不平衡检验（PDT）[25]是一种基于家族的关联测试，考虑每个谱系中不一致的PDT是一种鉴定罕见变异的稳健方法，但应仔细考虑其对罕见变异标志物的结果。由于罕见变异在基因组中丰富，但通常彼此不相关，因此需要严格的阈值来检测这些变异[85]。这种限制导致检测罕见变异体的功效损失，当罕见变异体具有较大的效应量且样本量非常大时，可以通过使用单变异体检验来缓解[86]。基于区域的分析可用于罕见变异相关性研究。这类研究确定了遗传因素的联合关联，具有表型特征的区域。基于区域的方法包括方差分量检验[87]、综合检验[79]和其他[88另一种基于区域的变异检测方法，称为非阈值罕见（NTR）方法，考虑了效应方向，不使用阈值[92]。PC分析，一个基于谱系的亲属矩阵或遗传相关性矩阵可用于解决罕见变异关联研究中的群体分层。由于MAF较低，使用罕见变体估计PC和遗传相关性矩阵可能不稳定[93]。无论如何，需要进一步的方法发展，以解决这个问题的人口结构的罕见变异的关联研究。使用基于群体的测序数据可以提高基于微阵列的GWAS的分辨率，在这种情况下，变体不直接进行基因分型[94]。单标记分析基本上没有能力检测测序数据中的罕见变异，而是可以使用遗传区域内所有罕见变异的联合考虑。对于测序数据和处理罕见变异，PDT可以使用折叠方法来实现[95，96]。在序列数据的分析中，重要的是选择和分组变量到一个单元中，并确定一个适当的区域。一种策略是选择基因;另一种是基于特定染色体上的变体或滑动窗口的数量构建区域[97]。与GWAS相比，由于测序平台、变体聚集、祖先、样本量和覆盖深度，用于罕见变体测序研究的方法不包括基因组规模的显著性阈值。根据不同的假设，单变量试验的范围为1× 10- 9至3.75× 10- 7 [98Z. Mortezaei和M. 塔瓦莱医学信息学解锁24（2021）1005867×=由于基因组中基因的数量和相应的Bonferroni校正，在基因组规模下进行的基于基因的测试可以具有2.5 × 10- 6的阈值[101]。然而，对于该阈值，未考虑个体基因相关性，这是该方法的局限性之一[102]。在罕见变异分析中，不能正确评估显著性阈值的评估，并且如何处理通过高通量测序生成的数据的多次测试仍然是一个悬而未决的问题。最后，为了清楚地呈现已审查的GWAS方法，表2中总结了这些方法。8. 讨论为了填补数据预处理和GWAS方法的空白，对新技术进行了综述，据我们所知，这是第一篇涵盖此类重要问题的综述文章。例如，HWE评估的最新发展可以考虑男性和女性，并区分常染色体和X染色体。此外，已经开发了一种具有成本效益的GBS方法，以通过GWAS方法鉴定遗传变异体。此外，机器学习方法有可能发现遗传信息中隐藏的模式，这些模式可以帮助揭示疾病的发病机制。虽然典型的GWAS检查单个SNP并测试其与感兴趣的表型的关联，而忽略其他SNP，但最近开发的多位点关联技术已被审查，以评估多个遗传变异对基因，途径和性状的联合影响。尽管开发了准备数据和执行GWAS的方法，但基因分型成本和大型数据集分析能力的增加最近促使研究人员研究组织特异性信号。此外，回顾性关联分析的最新发展可用于基于协变量和表型的表型模型错误指定。另一方面，根据GWAS的结果，增加关联分析的能力和真实基因座的边际效应的一种方法是遗传富集，其包括选择表型的特殊特征。9. 结论总之，GWAS数据预处理和方法的最新发展，这在本文中进行了审查，可以克服目前在这一领域的挑战，并帮助解决未来的挑战。这些方法可用于生成更稳健的GWAS结果，以便在发生非随机采样或群体结构等因素时从遗传数据中发现遗传力。得出的结论是，在某些情况下，一个特定的性状和意想不到的组织之间的关联已被检测到，和不可知扫描的组织集需要发现它们的机制。此外，对于从关联研究中检测罕见变异，单标记分析基本上没有效力，而可以使用遗传区域中所有罕见变异的联合考虑。总之，数据预处理和GWAS应用的最新发展和新方向使其更具成本效益，并允许更准确的结果。竞合利益作者声明，他们没有已知的可能影响本文所报告工作引用[1] NsengimanaJ，Bishop DT.遗传连锁和关联研究的设计考虑。In：ElstonRC，editor.分子生物学方法第二版，卷1666年; 2017年。p. 257比81[2] MaciukiewiczM，Marshe VS，Hauschild A-C，Foster JA，Rotzinger S，Kennedy JL，等人基于GWAS的机器学习方法预测重度抑郁症的dulo X dulo反应J PsychiatrRes 2018;99：62-8.[3] OttJ，WangJ， Leal SM.全基因组测序时代的遗传连锁分析。Nat RevGenet2015;16（5）：275-84。[4] Bush WS，Moore JH.第11章：全基因组关联研究。PLoS ComputBiol 2012;8（12）：e1002822.[5] 秃头DJ，主教M，坎宁C。统计基因组学手册。第四版John Wiley Sons Ltd;2019&.[6] 洛博一世，肖K。遗传连锁的发现和类型。国家教育部2017 ;1（1）：139。[7] 赞·Y了解复杂性状的遗传基础。在：乌普萨拉学位论文的数字综合摘要从医学院1438.乌普萨拉：Acta Universitatis Upsaliensis; 2018，ISBN978-91-513-0260-7.[8] Hoffman GE.使用线性混合模型校正人口结构和亲属关系：理论和扩展。PLoS One 2013;8（10）：e75707.[9] Pan W，Kwak I-Y，Wei P. A powerful pathway-based adaptive test forgeneticassociation with common or rare variants. 美国遗传学杂志2015;97（1）：86-98。[10] 张宏，王忠，王S，李宏.家畜全基因组关联研究进展。J AnimSci Biotechnol2012;3（1）：26.[11] 张伟，高翔，石翔，朱波，王正，高宏，等.基于PCA的多性状GWAS分析：一个探索多效性的强大模型。动物（巴塞尔）2018;8（12）：239。[12] Das S，Forer L，Schoenherr S，Sidore C，Locke AE，Kwong A，et al. Next-generationgenotype imputation service and methods. NatGenet 2016;48（10）：1284-7.[13] 国际HapMap联盟。国际HapMap项目。Nature2003;426（6968）：789[14] 千人基因组计划联盟人类遗传学的全球参考变化量Nature2015;526（7571）：68-74.[15] 放大图片作者：Zheng-BradleyX，Flicek P.1000个基因组项目资源的应用Funct Genomics2017;16（3）：163[16] 华锋，郭英，孙勤，杨丽，高锋。基于HapMap的研究：CYP2A13可能是非肺癌发生的潜在关键代谢酶基因吸烟者。胸癌2019;10：601-6。[17] Laird NM，Lange C.现代统计遗传学基础（生物学和健康统计学）。纽约：Springer Publishing Company; 2011。[18] Al-Eitan LN，Mohammad NN，Al-Mogableh HW，Hakooz NM，Dajani RB.中国人群VIP变异体的遗传多态性研究来自约旦的亚群。当前药物代谢2019;20（8）：674-81。[19] CaoB，Yang M，Kang G，Li R，Zhu X，Kang Q，et al.基因之间的关系调节FGA和裂殖疝的miRNA的多态性。开放获取MacedJMed Sci 2019;7（9）：1436-9。[20] 陈伟，丁红，程英，李勤，戴荣，杨新，等。中国白族VIP药物基因组变异的遗传多态性分析。MolGenet Genomic Med 2019;7（9）：e884。[21] 黄春英，许永伟，马甘迪，张伟文，等。热休克蛋白B1基因rs2070804多态性与原发肿瘤深度相关。 J Cell生物化学2020;121（1）：63[22] 唐学杰，沈土新成，唐永林，平晓英，于晓宁。GJA3 SNPs对年龄相关性白内障易感性的影响国际眼科杂志2019;12（6）：1008-11。[23] Thomson RJ，McMorran B，Hoy W，Jose M，Whittock L，Thornton T，et al.Newgenetic loci associated with chronic kidney disease in an indigenousAustralian. Front Genet 2019;10（330）.[24] 班伯里RM加拉格DJ 前列腺癌：一种常见可变恶性肿瘤的生殖系预测。BJUInt2012;110（11c）：E809-18。[25] 埃尔斯顿统计人类遗传学：方法和协议。方法Mol Biol2017：1666。施普林格自然。[26] Purcell S，Neale B，Todd-Brown K，T

下载后可阅读完整内容，剩余1页未读，立即下载