英国生物库发现862个新拷贝数关联：CNest新方法解决CNVGWAS研究难题

39 浏览量更新于2023-12-06 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

文章CNest：一种新的拷贝数关联发现方法从英国生物库的200，629个全外显子组序列数据集中发现了862个新的关联图形摘要亮点d大型人类队列中的新拷贝数变异（CNV）关联d来自下一代测序数据的d专门为在GA4GH标准dSNP和CNV关联的研究和CNV标记SNP作者托马斯·菲茨杰拉德，伊万·伯尼通信tomas@ebi.ac.uk（T.F.），birney@ebi.ac.uk（E.B.）简言之CNest拷贝数变异（CNV）全基因组关联研究（GWAS）测试将CNV纳入与SNP GWAS中广泛使用的框架相似的框架中。我们在英国生物库人类队列中以外显子水平分辨率获得了800多个新发现，为使用下一代测序数据进行进一步的CNV GWAS研究铺平了道路。Fitzgerald Birney，2022，细胞基因组学2，1001672022年8月10日-作者。https://doi.org/10.1016/j.xgen.2022.100167会会开放获取文章CNest：一种新的拷贝数关联发现方法从英国生物库的200，629个全外显子组序列数据集中发现了862个新的关联托马斯·菲茨杰拉德1，2，*和伊万·伯尼1，*1欧洲分子生物学实验室，欧洲生物信息学研究所（EMBL-EBI），Wellcome Genome Campus，Cambridge CB 10 1 SD，UK2电极导线触点* 通信：tomas@ebi.ac.uk（T.F.），birney@ebi.ac.uk（E. B.）https://doi.org/10.1016/j.xgen.2022.100167总结已知拷贝数变异（CNV）影响人类性状，对常见和罕见遗传疾病具有丰富的研究历史，并且尽管CNV被接受为一类重要的基因组变异，但来自下一代测序（NGS）数据的基于拷贝数的全基因组关联研究（GWAS）的进展有限。在这里，我们提出了一种用于从NGS数据进行大规模拷贝数分析的新方法，该方法产生稳健的拷贝数估计并允许在发现模式下在全基因组范围内进行我们提供英国生物库资源的详细分析和专门设计的软件包。我们使用这些方法对78个人类性状进行CN-GWAS分析，发现了800多个可能对性状分布有很大贡献的遗传关联最后，我们比较了相同性状和样本的CNV和SNP关联信号，定义了特定的CNV关联类。介绍全基因组关联研究（GWAS）是一种成熟的遗传学技术，已经在性状和序列水平的遗传变异之间建立了数千个强大的关联。1- 7通常，这些关联会对人类疾病的理解产生重大影响，在某些情况下，还会对人类疾病的治疗产生重大影响。8- 10然而，对于大多数常见的遗传性疾病，这些关联仅占遗传性疾病风险的一部分。11-13就总碱基对而言，拷贝数变异（CNV）占任何两个基因组之间差异的大部分14-18，并且已知会改变人类性状分布，19-21通常对人类健康产生强烈影响。22，23这一点在研究CNV与罕见遗传病关系的大量研究中得到了最好的强调。24- 26尽管人们普遍认为CNV对人类性状的差异有显著影响，但迄今为止，大规模CNV与表型相关性研究的方法（相当于CNV的GWAS）受到许多因素的阻碍，包括方法学困难，足够大的数据集的可用性，以及从测序数据中解释复杂重排的能力。二十八，二十九十多年来，CNV一直是常规临床医学遗传学筛查的主要组成部分;然而，个体事件的解释仍然具有挑战性，30，31大多数临床检测实验室通常在智力残疾、自闭症谱系障碍和/或多种先天性异常患者32尽管如此，大多数临床CNV仍然是使用专门的微阵列发现的。大多数具有强烈影响的CNV是罕见的，它们通常在一系列基因组疾病的患者中作为新生突变被发现。36、37此外，已经观察到，与对照组相比，特定患者组中CNV的总体负担更高38、39，表明潜在的组合CNV效应。40可以想象，CNV的特定组合通过协同作用，可能具有很大的可能性，由于诸如剂量补偿、不完全突变和多基因效应等因素而导致表型差异。41，42CNV在罕见疾病中的影响可能很大，而人们可能会期望在更常见的疾病中所有变异的影响较弱，这与这些疾病的多基因行为一致在特定患者群体的相对小规模研究中观察到了几种CNV基因型-表型相关性43，或者通过合作共享罕见疾病的遗传数据44;然而，CNV也与许多复杂疾病相关。最近使用数据集（如英国生物银行）进行的大规模CNV关联测试发现了一些与某些人类特征相关的高度显著的基因座，47并且先前专注于认知特征（如精神分裂症48和自闭症49）的研究已经证明了SNP阵列在搜索新的CNV关联方面的实用性。对特定人类性状的集中研究已经使用大规模SNP基因型来进行关联测试，并取得了巨大成功;5053CellGenomics 2，100167，August 10，2022？作者。1这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。会开放获取文章2Cell Genomics2，100167，2022另一个重要的考虑因素是SNP基因分型阵列具有有限的分辨率来检测小CNV，并且由于SNP在整个基因组中的分布和有限的剂量响应，对于全基因组范围的CNV发现具有有限的灵敏度。55最近的一项CNV关联研究显示了英国生物库中基于基因型的CNV关联测试的能力和56检测到的最小CNV相关性为1p36.11处的49kb，发现其与网织红细胞计数、血小板计数和血红蛋白A1c（HbA1c）相关。56然而，检测到的大多数CNV相关信号涉及平均大小为817 kb的大的复发性CNV，突出了使用SNP阵列时的有限另一项最近的研究表明，通过将共享的扩展SNP单倍型信息纳入其模型，SNP阵列的分辨率[57]这两项研究都只测试了数量性状，并且仅限于SNP阵列的分辨率;然而，两项研究都发现了新的发现，突出了CNV关联测试全基因组复杂人类性状的巨大潜力。可以合理地假设CNVs可能解释了常见疾病风险中观察到的方差的相当大的一部分这些CNV中的一些将与SNPs处于强连锁不平衡（LD），因此它们可以通过标记多态性来发现，但是仅使用SNPs不可能缩小因果变化其他CNV可能不具有良好的标记SNP，并且此外，复发性CNV比复发性SNP更常见，目前估计CNV突变率为每个个体0.2个从头事件，而复发性CNV突变率为每个个体0.2个从头事件。对于点突变，每代每个碱基对的CNV分别为1.8310 108和2.5310 108，19，58-随着具有适于拷贝数估计的数据集的大数据群组的发展，61-63对CNV进行高分辨率全基因组GWAS测试的能力变得更加可行。大规模CNV发现的一个挑战是原始测序深度的可变性，这是由于其他因素，最可能的是提取技术和抽血时的免疫系统状态。这种变化在样品之间的原始测序读取深度中产生复杂的噪声特征，所谓的基因组波。为了探索这一点，人们需要CNV的强大的标准化策略，CNV的适当发现方法，以及将基于CNV和SNP的关联轻松整合到一个框架中的方法在这项工作中，我们解决了其中的一些问题，提供了一种新的发现方法CNV从下一代测序（NGS）数据，CNest，基于新的标准化技术的大规模队列。我们选择使用简单的线性模型进行发现，而不是试图为每个CNV基因座创建等位基因的个体模型该线性模型在所有CNV基因座上都是一致的，并且与SNP GWAS中使用的线性模型具有许多相似的性质。因此，我们可以使用相同的协变量，相同的诊断风格QQ图，并将SNP和CNVs关联放入相同的发现后，我们表明我们可以提供至少一些位点的更详细的建模。我们在大型英国生物样本库中使用该方法进行了全面的CNV分析具有外显子组序列的队列。为了探索与已建立的SNP多态性的关系，我们还在单一框架内进行了CNV和SNP GWAS，将我们的方法应用于同一组英国生物库样本，并调查了不同性状之间的相关性。我们发现许多CNV与表型相关，尽管正如预期的那样，这些相关性中的许多也被SNP多态性标记。然而，我们有一个子集的CNV关联不能通过SNP发现，另一个子集与强SNP多态性一致，但与任何特定SNP没有很好的相关性，并且许多CNV是可标记的，但标记的SNP与CNV基因座有一定距离。这些关联中的许多基于先前关于CNV和SNP基因组关联测试的研究概括了多个已知关联我们已经将执行此发现的软件CNest开源，并提供可移植的工作流程，运行CNest，与GA4GH标准兼容。64结果来自英国生物库的200，629名个体中的CNV为了从英国生物库的NGS数据中识别大量个体的外显子分辨率CNV区域，我们开发了一套灵活的、高度可扩展的CNV分析工具，称为CNest（见STAR方法）。在这个包中，我们包括一个强大的CNV调用程序以及一组工具和新的方法，以发现模式在全基因组范围内进行CNV关联测试。描述CNest调用和关联测试主要步骤的流程图见图S1。这些方法的中心组成部分是通过对全外显子组测序（WES）/全基因组测序（WGS）的某些噪声特征（例如，基因组波的存在和规模）进行建模来选择适当的参考数据集和标准化程序，以生成跨大样本群组的优化拷贝数测量（参见STAR方法）。在使用WES数据调用200，629个样本队列中的CNV后，我们应用了几种质量控制（QC）措施，以确保拷贝数测量和CNV调用是一致的。CNest诊断图的子集见图1。CNV分析中一个明显但重要的步骤是基于估计的X染色体拷贝数的性别分类。X染色体的良好控制的一个拷贝数对两个拷贝数表明标准化程序和相对拷贝数估计成功地起作用，至少对于X染色体（图1A）。这种分析的一个副作用我们检测了50个样品，显示X染色体上异常高的拷贝数（图1A）。这些样本被认为是数据质量问题和真正的三重X案例的混合体三重X是由生殖细胞分裂过程中的随机错误引起的一种疾病，大约每1,000名女性中就有一名。尽管三重X与几种性状差异有关，但它通常无法诊断，并且取决于其他社会因素，可能永远不会引起任何明显的问题。65我们还检测到51个数据集，显示出不寻常的Cell Genomics2，100167，2022年8月10日3会开放获取文章图1. 200，629个英国生物库外显子组序列(A) 性别分类、与X染色体相比常染色体的相对覆盖率以及所有样本中以不同颜色显示的CNest性别分类。(B) 常染色体CNV调用总数与每个样本中罕见CNV比例的测量值（使用1%的群体频率）。(C) 每个样本的损失/增益比的log 10与CNV调用总数的log 10。(D) 密度图显示（B），但仅适用于通过QC的样品。X染色体覆盖，不能可靠地分配给双（女性）或单X（男性）。我们假设这些是染色体诱饵的不一致捕获和潜在的嵌合性染色体事件（即，马赛克XXY）。与之前英国生物库中对性染色体非整倍性的研究一样，我们将110 ， 312 名女性中的 50 名归类为潜在的 X 三体（Ambigous_high），患病率为45.3/100，000。我们还比较了通过SNP阵列进行的性别分类（f22001）、性染色体非整倍性的预测（f22019）以及是否存在性染色体异常的任何国际疾病分类第十次修订版（ICD 10）代码Q90至Q99（表S1）。大多数性别分类在外显子组序列和SNP阵列数据之间是一致的，而那些不一致的性别分类由于f22019和性染色体异常的存在而富集。ICD 10相关代码性染色体非整倍性不是本研究的重点，我们简单地排除了所有不能根据其覆盖范围可靠地分配为双X或单X的样本（图1A）;这些拷贝数性染色体调用将返回英国生物库，供其他研究者进一步研究。一些信息性CNV质量信息包含在所有样品中CNV调用数量的一致性中，相对于在整个群体中罕见的那些调用的比例（图1B）。这类似于在SNP基因分型QC中用作标准的基因分型极端考虑到目前对CNV突变率的估计，67我们预计新生CNV事件的数量非常低（每个基因组少于一个），并且罕见的CNV在任何个体基因组中都是罕见的，这在这里得到了经验的支持。4Cell Genomics2，100167，2022会开放获取文章每个英国生物库外显子组的三个罕见CNV的中位数分别基于1%的群体频率损失和增益。对于假定健康个体中的大规模CNV分析，合理的假设是，与大部分人群相比，大多数基因组平均显示一致水平的罕见变异。令人鼓舞的是，在将我们最严格的QC定义应用于超过200，000个外显子组序列用于CNV识别之后，我们获得了超过92%的通过率，这表明对于大多数样品，我们的CNV估计和识别方法是一致的。考虑到已知的CNV形成机制，如非等位同源重组（NAHR）和非同源末端连接（NHEJ），没有理由预期在比较大量基因组时，丢失和获得的数量之间会有任何偏差，尽管存在一些离群值，但我们观察到了一个紧密的丢失-获得比分布，中位数为1.4（图1C）。当评估通过我们的QC标准的样品中的这些分布时，大部分数据紧密集中在平均调用数48和平均稀有率0.07附近（图1D）。如预期的，我们观察到损失/增益检测的偏差，与每个样品19个增益相比，中值为28个损失（图S2A）;来自基于阵列和基于序列的数据的大多数CNV调用者显示与增益相比检测损失的能力增加，这是由于较高拷贝数信号（“读数”）的方差增加68-71，72当观察CNest在所有200，000个英国生物库样本中进行的CNV调用（缺失和重复）的比例时，大多数调用都很小（所有调用中的51%> 100 kb），并且对于较小的事件，损失-增益灵敏度的差异最明显（图S2B）。检测到的大多数CNV都很小;然而，所有调用中只有1.8%仅包含单个外显子，并且随着大小的增加，丢失与获得的比例稳定在大于500kb大小的大约相等的数字，大于该大小的调用占总调用集的14.1%（图S2B）。常见的CNV在整个基因组中并不均匀分布，我们在已知的CNV形成热点（通常更接近低拷贝重复序列和着丝粒区域）中发现了几个高频复发事件我们看到CNest识别的每条染色体的CNV数量与该染色体的注释片段重复总数之间存在强相关性（图S2C）。与增益相比，损失存在更强的相关性（损失的Pear-son为了评估我们最终log2比率分布中基因组波的存在，我们基于运行中位数的四分位距（IQR）计算了基因组波估计值，使用401个数据点跨度通过缩放因子缩放。在所有200，000个样本水平的标准化log2比率分布中，我们观察到极低水平的极端波动特征，所有样本中仅3.2%的基因组波动估计值大于1（图S2D）。波估计值大于1的样本代表我们预期在其log 2比率分布中存在基于波的噪声可能使CNV调用具有挑战性的样本（图-1）。ure S3）。当查看与每个样本的损失和收益总数相关的波浪估计值时，我们观察到在总CNV调用的整个范围内分布非常紧密（图S2D）。有趣的是，我们的样本水平CNV调用似乎在很大程度上对基于波的噪声的差异具有鲁棒性，大多数样本显示较高的波估计值在总CNV调用的较低范围内。为了进一步评估我们CNV调用的一些特征，我们查看了有多少预测的功能丧失CNV（缺失或截短重复）与来自dd基因到表型（ DDG 2 P ）资源的临床重要基因重叠 ;24 我们预期在 UKBiobank中发现的常见CNV在与这些基因的重叠中耗尽。使用针对来自DDG2P的218个单等位基因功能丧失基因的50%倒数重叠规则，我们发现总共342个个体CNV调用（图S4），其中40%在相同的基因GLMN中，其已知参与球静脉畸形。73总的来说，与之前在英国生物库中对致病性CNV的研究类似，52我们在英国生物库中的临床重要疾病基因中检测到少量CNV，罕见变异分析不是本研究的重点;然而，我们鼓励感兴趣的研究人员利用这些高分辨率CNV调用（参见数据和代码可用性），其中可能会观察罕见CNV事件的修饰效应。英国生物样本库中的拷贝数变异关联检测对于在发现模式中进行全基因组的CNV关联测试，我们利用了CNest生成的拷贝数估计值和CNV调用，并使用拷贝数估计值作为CNV剂量应用标准线性和逻辑回归模型（参见STAR方法），类似于来自SNP的等位基因的常见剂量模型尽管线性模型的选择将我们的信号限制在显示拷贝数和性状之间的线性关系的位点，但可能对表型具有非线性影响的更复杂的模型的选择可能是复杂的，并且甚至更复杂地分析所得的全基因组一致的统计学。此外，这种简单的模型与SNP GWAS74中最常用的模型相似，因此更容易与SNP发现联合集成。所有模型均应用于来自主成分分析（PCA）定义的欧洲聚类（SNP主成分[PC] 1和2）的不相关样本，并包括标准协变量，其中10个PC分别来自SNP和CNV估计值。我们对46个不同的主要英国生物库字段进行了CNV关联检验，包括各种生理、生活方式和健康相关类别的30个定量和16个二元性状（表S2）。我们使用诊断QQ图和相关的基因组膨胀统计量来确信我们的模型产生了表现良好的统计检验，其中大部分基因组符合预期的零假设（表S2）。总之，在精细定位以选择与基因座处的每个CNV-表型关联最相关的探针（参见STAR方法）之后，我们发现了34个性状中的646个显著的CNV特异性关联，其中24个是定量的，10个是二元的（图S5）。我们还选择了首次发生英国生物库字段的所有实例，这些实例具有超过500个映射到ICD 10代码的病例（英国生物库字段1712），从而产生398个不同的代码Cell Genomics2，100167，2022年8月10日5会开放获取文章图2.四种不同英国生物库特征的拷贝数关联曼哈顿图外显子水平信号以不同的灰色阴影显示，CNV调用水平信号以橙色和绿色显示。（(E) 放大基因座图，显示OCA 2/HERC 2基因周围的chr 15用于毛发颜色信号。(F) 放大基因座图显示了ADAMTSL 3/UBE 2 Q2 L/GOLGA 6L 4基因周围的chr 15，用于站立高度信号。(G) 放大基因座图，显示哮喘信号的基因CHROMR、PRKRA和PJVK周围的chr2。(H) 放大位点图显示心肌梗死信号的LPA基因周围的chr6。我们用它作为病例/对照标签，用逻辑回归模型进行CNV相关性检验。这398个标签涵盖了15个更广泛的类别（表S3），我们在13个大类别中获得了44个ICD 10代码的显著我们给出了一些具体的例子（图2）来说明这些关联及其与先前研究的一致性（进一步描述见数据S1对于测试的大多数UK Biobank主要性状，我们发现了新的CNV特异性关联（表S8）;例如，对于眼相关性状角膜滞后，我们在ANAPC 1基因的外显子15至36中检测到稳健的CNV关联（图S6），其中序列变异估计占角膜内皮细胞密度变异性的24%;75并且对于两种角膜内皮细胞密度变异性，通过对TCF 4基因的外显子水平的分析，我们发现了重要的TCF4基因的外显子水平的相关性，该基因已知与几种眼部疾病有关，如Fuchs角膜发育不良76以及与Pitt-Hopkins综合征密切相关的TCF 4单倍不足[77]鉴于英国生物样本库的参与者在招募时基本健康，这种与TCF 4基因座眼部表型的关联值得进一步研究。对于红细胞相关性状，我们检测到大量关联，这些关联具有来自SNP GWAS的先前关联证据（图S7），例如ABO基因内和周围的变异;78对于生活方式测量，例如饮酒，我们发现已知基因内的关联79，例如NPIPB 6;对于认知测量，我们还发现CNV关联6Cell Genomics2，100167，2022会开放获取文章图3.ICD 10代码用例/对照拷贝数关联(A) 44个ICD 10编码中CNV相关性的合并和重叠曼哈顿图。(B) 组合QQ图包括所有44个性状的关联结果的所有p值。(C) 叠加QQ图显示44个性状的所有个体QQ图。(D) 显示具有任何显著信号的所有ICD 10编码的外显子总数的图。(E) ICD 10代码E80（卟啉和胆红素代谢疾病）的UGT1A基因的基因座放大图。(F) ICD 10编码D50（缺铁性贫血）PRSS 1基因的基因座放大图。(G) ICD 10代码M10（痛风）SLC2A9基因的基因座放大图。(H) ICD 10代码O 36（已知或疑似胎儿问题的母体护理）的RHD和RHCE基因的基因座放大图。(I) ICD 10编码K74（肝纤维化和肝硬化）PNPLA3基因的基因座放大图。在英国生物样本库的SNP GWAS测试中，先前有相关证据的基因中，例如与反应速度相关的ARL17 B基因80所有这些CNV发现都值得与SNP多态性和围绕这些基因座的经常被充分研究的生物学相结合，并且，如在“数据和代码可用性”部分中所描述的在这里，我们提供了重要的见解，可以实现的结果类型的拷贝数关联测试在大型NGS队列将CNV GWAS纳入一个类似的框架，以SNP为基础的测试，并铺平了道路，为进一步广泛的研究，以调查拷贝数和人类复杂性状之间的关系。首次出现ICD 10代码CNV关联为了补充英国生物库测量和二元特征，我们还探索了CNV与直接医疗保健措施的相关性，如英国生物库中ICD 10代码的医院事件统计（HES）捕获数据所我们使用“首次出现”字段作为病例对照标签，对病例数超过500的所有代码进行了CNV关联测试，未预选或筛选任何病例标签，对总共398个病例对照标签（表S3）。在所有398个编码中，我们发现了242个CNV特异性关联，跨越覆盖144个独特基因的44个编码（图3A）。大部分（117 242）位于人类白细胞抗原（HLA）的超级基因座在6q21之间的染色体位置chr6：30500001和46200000，有6个性状，没有关联的HLA超级基因座外，13个精细映射后，大多数ICD 10代码（44个中的27个）具有1到2个显著关联区域，9个ICD 10代码具有3到10个关联区域，8个ICD 10代码具有大于10个关联区域。几乎所有相关结果均得到良好控制，膨胀因子（λ）范围为0.984 - 1.140，但ICD 10代码F17（烟草使用所致精神和行为障碍）除外，其显示轻度膨胀，λ为1.382（图3B和3C;表S2）。大多数精细定位区域较小（表S9），每个精细定位区域的显著外显子中位数为3个（图3D），最大区域涉及与ICD 10编码K90（肠吸收不良）相关的5个不同基因的52个外显子。我们总共检测了242个协会，从知名的重要Cell Genomics2，100167，2022年8月10日7会开放获取文章基因组区域的研究，直到完全基于CNVs的新发现。44个显著相关ICD 10代码的所有关联结果均在补充信息中提供。我们提供了具体的示例（图3），展示了我们通过详细描述在10个不同的ICD 10代码用例控制集上发现的一些关联而创建的一些新的CNV关联（更多描述请参见数据S2）。总之，我们使用来自英国生物库的200，000个全外显子组，在78个不同性状（24个定量和54个二进制）中发现了862个新的精细映射的CNV关联，其中大多数先前已通过SNP GWAS测试发现，或具有来自其他研究领域的令人信服的证据，如医疗保健，罕见疾病或动物模型（补充信息），但有相当一部分是全新的。与二元性状相比，我们能够从数量性状中检测到更多的平均关联，每个数量性状的中位数为4个关联，而二元性状为2个。这些新的关联结果和CNV的全基因组关联检测方法为CNV在复杂人类性状中的贡献提供了重要见解，在某些情况下，CNV可能与健康相关结果和遗传风险特征直接相关。我们鼓励感兴趣的读者继续研究这里讨论的发现，并在我们的补充信息中列出。与最近使用SNP基因分型阵列进行的最近有一些研究利用SNP基因分型阵列检测CNV并进行拷贝数的全基因组关联测试的能力。[56，57]虽然技术不同，而且最近的两项研究都使用了所有英国生物库参与者（约450，000），但我们试图将我们在这里获得的关联与英国生物库中使用SNP阵列检测到的关联进行比较。整体Auwerx等人56在47个数量性状中检测到131个新的关联，平均大小为715 kb，Hujoei et al.，57人额外地将通过分类的同一性（IBD）信息用于CNV检测，发现了56个数量性状之间的269个关联，平均大小为467 kb，相比之下，使用WES的CNest发现了78个数量性状和二元性状之间的862个关联，平均大小为9，970 bp（图S9A和S9 B）。最近的两项基于SNP的研究仅对包括许多血液相关测量和代谢性状在内的数量性状进行了GWAS，并且有9个性状与SNP阵列研究和CNest结果重叠，导致我们可以比较的57个CNV关联（表S10）。为了比较这些关联，我们将所有基于SNP阵列的关联重新映射到最新的基因组构建（GRCh38），并从相同性状的关联测试中跨每个位点询问外显子组关联信号（参见STAR方法）。总的来说，我们发现63%（57个中的36个）的位置可以在所有性状上被确认（19个全基因组和17个暗示性的）（图S9C），并且某些性状（例如，身高和网织红细胞计数）的一致性水平较高（图S9D）。一些信号仅达到提示性显著水平，我们预计这些信号可能会随着样本量的增加而增加到全基因组水平，而一些区域没有显示出相关性的证据来自CNest关联测试（图S9我们还对每个关联进行了100轮排列（参见STAR方法），显示与具有相同大小的基因组的随机区域相比，对于基于SNP阵列的CNV关联区域，对于每个性状发现的提示性信号的数量显著更高（p = 0.018）（表S11）。这是来自这些非常不同的数据集（基于SNP和基于WES）、不同的样本量和不同的详细方法（如何对关联建模）的CNV关联的稳健但绝非完美的一致性正如预期的那样，使用WES，CNest结果实现了更高的分辨率，检测到许多比基于SNP的研究更小的关联，使用不到一半的样本数量，仅在编码区（外显子）中的变异和最常应用于SNP GWAS的标准加性模型。由于所有研究都能够发现一些独特的关联，因此将来自全外显子组和SNP基因分型阵列的拷贝数信息结合起来可能对未来的关联研究有用。此外，一旦使用相同的样本、性状和模型设置获得结果，CNest结果中没有显示信号的SNP阵列关联值得进一步探索。英国生物库中基于CNV和SNP的联合关联为了研究SNP和CNV关联之间的关系，我们使用与CNV关联测试相同的样本在六个数量性状上进行了基于SNP的GWAS测试（参见STAR方法）。选择这六个性状以包括跨基因组的不同区域的具有不同信号强度的一系列信号目的是允许直接比较SNP与CNV相关信号在各种人类性状中的差异。这使我们能够开始探索关联的潜在基因组景观，并将个体关联分类为可通过SNP和CNV GWAS独立检测到的那些关联，以及CNV特异性的那些关联（参见STAR方法）。我们将CNV信号分为仅CNV（仅通过CNV GWAS可检测的信号）、CNV等位基因（通过SNP和CNVGWAS两者存在于相同基因座处但它们之间具有非常小的相关性的信号）、SNP-CNV近（通过SNP和CNV GWAS两者可检测的信号，并且其中这些信号高度可能被分配给相同基因）和SNP-CNV远（可以通过SNP和CNV GWAS两者检测但高度可能被分配给不同基因的信号）。在133个精细定位的CNV相关区域中，我们将17%（23/113）仅归类为CNV， 44%（59/133）归类为CNV。在SNP-CNV等位基因中，28%（38/133）为近SNP-CNV，11%（13/133）为远SNP-CNV（表S12）。我们选择严格定义新的CNV事件（仅CNV和CNV等位基因），将r2截止值设置得相对较低，因为非常强的SNP-CNV标记在全基因组范围内是罕见的。大多数可以被SNP很好标记的外显子信号发现于涉及复发CNV的区域中，其中68%发现于超过1，854个个体中存在的CNV区域中（1%群体频率）。我们认为SNP-CNV-far、CNV-等位基因和CNV-only关联类别是不同类型的新CNV关联，而对于SNP-CNV near，我们假设来自两种变体类型的信号可能标记相同的功能性CNV关联。8Cell Genomics2，100167，2022会开放获取文章图4.基因座放大图显示了四个不同数量性状的不同CNV关联类型分类的SNP和CNV关联结果(A) SNP-CNV在ACAN中用于站立高度的近关联图。(B) C4 A处FEV/FEC比率的SNP-CNV远关联图(C) HERC 2处毛发颜色的CNV-等位基因关联图(D) SPDYE1时的时间型的仅CNV关联图变异;然而，CNV协会可以很好地提供该基因座的功能洞察。我们使用基因座放大图显示了每个CNV关联类型分类的一个示例（图4）和另外两个示例（图S10），涵盖了各种SNP-CNV相关模式和不同的信号强度，但焦点是来自精细映射的CNV区域的前导外显子对于SNP-CNV-near和SNP-CNV-far类别，我们显示了CNV和SNP的显著关联信号（图4A和4 B），其限于与身高相关的ACAN基因的单个外显子和与FEV/FEC比率相关的包括C4A和C4 B基因的区域（参见数据S3的进一步描述）。接下来，为了研究仅通过CNV关联测试可检测到哪些基因与性状的关联，我们将新的CNV关联分类为OCA 2/HERC 2基因座处的CNV等位基因，这在上文中详细描述。有趣的是，尽管有强有力的证据表明HERC2的CNV和SNP检测具有相似的信号强度，但这两种变异类型之间的相关性非常小（图4C），表明这些关联可能通过不同的功能突变起作用。对于仅CNV的类别，我们发现了与7号染色体上的SPDYE1基因内的时间型的高度特异性关联，其中在1 Mb内没有标记SNP和SNP关联（图4D）。SPDYE 1基因以前与睡眠模式的测量没有关联，并且在该位置对CNV的描述很少;然而，相关基因SPDYE 6在更大的样本集（130万个样本）中通过SNP GWAS与失眠相关81我们还发现在SPDYE6和包含POLR和SPDYE2B基因的直接相邻区域存在显著的仅CNV相关性，这些区域先前已在英国生物库中通过SNP GWAS与时间型82在此，我们提供了强有力的证据，证明SPDYE 1-、SPDYE 6-和POLR-相关基因的CNV与英国生物样本库中的时间型测定相关，并且可能以剂量依赖性方式影响个体我们还提出了两个不同的CNV关联类的其他例子（图S10），包括SNP-CNV与SPG 7基因83处的头发颜色和0.8-Mb区域处的酒精消耗接近关联，所述0.8-Mb区域包括涉及NPIPB 6、NPIPB7、NPIPB 9和NPIPB 9的四个精细定位的CNV区域。和SH 2B 1基因;79，84-竞争性SNP-CNV关联模型我们对身高和发色进行了联合CNV-SNP竞争关联模型（见STAR方法），因为这些性状包括全基因组的多个信号，并且已经被以前的工作广泛研究。96，97在91个外显子水平的CNV相关信号中，在前导CNV位置周围的1 Mb内至少有一个显著的SNP，我们进行了8种不同的模型（参见STAR方法）。首先，我们将三组分混合模型应用于归一化拷贝数估计值（log 2比率）以定义拷贝数基因型（假设简单的缺失/获得过程）。接下来，我们使用在相同样品中具有针对相同性状的最高信号强度的SNP和在1 Mb内显示针对前导CNV外显子的最高r2在将拷贝数估计值去噪到三组分模型中之后，大多数关联（91个中的71个）显示信号降低，91个位点中的17个下降到低于全基因组显著性（图5A和5B）。对于大多数位点，关联信号强度降低，三态模型的中位-log 10 p值降低1.7;然而，91个位点中有20个显示信号强度略有改善，中位增加Cell Genomics2，100167，2022年8月10日9会开放获取文章图5.使用拷贝数估计、拷贝数基因型和联合模型的CNV和SNP竞争模型，包括来自最高度相关SNP或在1 Mb内具有相同性状的最高关联信号的SNP基因型(A) 四种不同模型的负log 10 p值：仅CNest，仅拷贝数估计值;仅cnstate，仅拷贝数基因型（三组分混合模型）; CNest-max-snp，具有拷贝数估计值和1 Mb内相同性状具有最高关联信号的SNP的联合模型;CNest-max- r2-snp，具有拷贝数估计值和1 Mb内最高相关SNP的联合模型。(B) 放大视图（A），将x轴限制为最大-log 10 p值20。（（的0.65，和一个位点在GOLGA6L4基因显示出相对较大的增加7时，使用CNV状态相比，CNV估计模型。由于选择了最相关的外显子（赢家的诅咒现象），p值的下降是可以预期的，但它表明，通过更分类的发现模型不会有很大的收获。我们显示了拷贝数估计值与SNP基因型之间的关系（图5C-这四个实例的范围从高度相关和标记良好的CNV（图5C、5D、5G和5H）到中度标记的CNV（图5E和5I），最后是标记不良的CNV（图5F和5J）。对于竞争性SNP和CNV建模，最简单的假设是被良好标记并显示与相同性状相关的位点可能能够在成对竞争模型中控制彼此在91个位点中，包括具有最高信号强度的SNP，而不管其r2如何，可以完全控制72%（91个中的66个）的CNV关联（图5A和5B）。当将SNP转换为r2最高的SNP时，我们观察到控制水平增加，80%（91个中的73个）的CNV信号降低到全基因组显著性以下。事实上，最常见的情况是，可以很好地标记CNV的SNP在总体上（在所有的在竞争性模型中，最佳的SNP（例如，SNP样品）能够最好地控制CNV缔合信号，只有两种情况下高度相关和显著的SNP不能完全控制CNV缔合（图5G和5I）。正如预期的18 CNV协会，不能完全控制的SNP类型，大多数显示非常少的标签，与80%的这些网站具有最大的r2低于0.6的所有SNP在1 Mb。然而，存在两种情况，其中高度相关的SNP可以控制CNV关联的主要假设不成立（图5G和5I）。我们从这些竞争模型中展示了四个不同类型的关联控制的例子。首先，在模型中包括的两种SNP类型都不能完全校正CNV估计信号的情况下，我们假设SNP标记CNV（图5G）。接下来，其中最显著或最高度相关的两个SNP都可以完全控制CNV关联信号的实例，并且我们假设CNV标记更显著的SNP（图5H）。值得注意的是，在DOCK8基因的内含子1中发现了最显著的SNP，而CNV信号和标签SNP都在相邻的CBWD1基因中发现，并且通过先前的SNP GWAS测试发现这两个基因都与性状（发色）相关。83，96我们还展示了一个CNV关联的例子，其中两个SNP都不能完全控制CNV关联，但最高相关性的SNP能够推动拷贝10Cell Genomics2，100167，2022会开放获取文章数字状态联合模型下降到略低于全基因组显著性（图5I）。发现最高信号SNP最接近CNV信号上游的不同基因，并且在CNV基因座周围存在多个标记SNP，我们假设它们都标记CNV。最后，我们显示了高度显著的CNV关联信号的实例，其在基因座周围具有非常少的SNP标记并且不能被竞争性联合模型中的任一SNP控制，支持我们的一般假设，即不能很好地标记附近CNV的SNP不太可能能够控制任何CNV关联，即使两个变体类别都显示与相同性状的显著关联（图5J）。在这里，我们已经显示了来自SNP和CNV联合关联测试的结果，这些结果我们已经证明，最明显的假设是附近的标签SNP通常能够控制CNV关联，但存在更复杂的情况，其中聚合变异相关性不足以预测它们之间的我们还表明，有可能使用剂量依赖性线性模型中的拷贝数估计值作为潜在拷贝数状态分布的合理代理，并且通过将类似方法应用于非常成功的SNP GWAS方法，有可能发现新的CNV关联，为基于SNP的性状关联映射增加额外的支持证据，进一步描绘性状关联的潜在基因组架构和变体相互作用。讨论在本文中，我们提出了一个强大的CNV-表型发现过程，使用NGS信息，类似于传统的基于SNP的GWAS。因此，本文补充了CNV在罕见疾病发现中的长期使用，并提供了比已建立的基于SNP阵列的方法更高分辨率的常见CNV视图21一个关键的基础是一个强大的标准化程序，可以处理一个大型队列中DNA呈现和提取状态的多样性。有了这个标准化的拷贝数水平，我们决定将基因组中CNVs的复杂性建模为线性剂量变量;该模型显然是对结构变异现实的近似，但它允许统计方

下载后可阅读完整内容，剩余1页未读，立即下载