没有合适的资源?快使用搜索试试~ 我知道了~
技术靶向长读段测序促进人T细胞受体α、δ和β基因座的分相二倍体组装和基因分型图形摘要亮点d表征T细胞受体基因座d基准测试揭示了准确的组装、变异调用和基因注释集d使用长读段测序框架的变体检测优于短读段方法d发现大量先前未记录的T细胞受体基因等位基因作者Oscar L.作者:Catherine A.放大图片创作者:Melissa L. 史密斯,科里·T。沃森对应Corey. louisville.edu简言之T细胞受体(TCR)基因内的遗传变异影响TCR库的组成和TCR-肽-主要组织相容性复合物相互作用。然而,人类TCR基因座内的多样性没有很好的记录。Rodriguez等人报道了一种用于TCR β、α和δ基因座的靶向长读段测序的新型可扩展方法。Rodriguez等人,2022,细胞基因组学2,1002282022年12月14日-作者。https://doi.org/10.1016/j.xgen.2022.100228会会开放获取技术靶向长读段测序促进人类基因组的分相二倍体组装和基因分型T细胞受体α、δ和β基因座Oscar L. Rodriguez,1Catherine A.小银,1凯特琳希尔兹,1梅丽莎L。Smith,1和Corey T. Watson1,2,*1美国肯塔基州路易斯维尔大学医学院生物化学和分子遗传学系2负责人联系人* 通信:corey. louisville.eduhttps://doi.org/10.1016/j.xgen.2022.100228总结T细胞受体(TCR)识别由主要组织相容性复合体(MHC)呈递的肽片段,并且对T细胞介导的免疫至关重要最近的数据表明,TCR编码基因区域内的遗传多样性研究不足,限制了对疾病中TCR基因座多态性对TCR功能的影响的理解,即使TCR库特征(1)是可遗传的,(2)与疾病表型相关。为了解决这一问题,我们开发了一种靶向长读段测序方法,以生成TCR β(TRB)和α/δ(TRA/D)基因座的高度准确的单倍型分辨组装,促进所有变体类型(包括结构变体)的基因分型。我们使用两个母亲-父亲-孩子三人组和5个代表多个人群的无关供体来这提高了基因分型的准确性,并发现了84个未记录的V、D、J和C等位基因,证明了该框架对于提高我们对疾病中TCR多样性和功能的理解的实用性介绍T细胞受体(TCR)在适应性免疫系统中起着核心作用TCR在T细胞表面表达,并通过主要组织相容性复合体(MHC)蛋白与抗原相互作用TCR作为由成对的α和β链或成对的γ和δ链组成的异二聚体蛋白存在编码人TCR链的基因的总数在228至234的范围内,并且它 们被分为四种区段类 型:可变(V )、多样性(D)、连接(J)和恒定(C)基因。在人类中,这些基因存在于三个基因组区域中:2TCR β(TRB)、α和δ(TRA/D)和γ(TRG)基因座。在T细胞发育期间,在V(D)J重组期间选择V、D和J基因(在TRA和TRG的情况下仅选择V和J)以形成用于给定TCR的转录和翻译的模板。在TCR库中观察到的巨大多样性(即,通过从TCR基因座内的大量V、D和J基因中选择,结合V-D和D-J连接处的连接多样性,接种完整的TCR组,并允许T细胞对不同抗原产生免疫应答。3据估计,单个个体中存在23 107个独特的TCR[4]整个TCR库的发育受宿主遗传学和环境的影响,包括外源肽和自身肽。5-8TRA/D、TRB和TRG基因座内的生殖系多样性已被记录;8-与缓解相关的T细胞反应仍然未被探索。几项靶向遗传学研究已经鉴定出与TCR功能和TCR库特征相关的种系变体。例如,在相同的人白细胞抗原(HLA)背景下,与TRBV9*01相比,使用等位基因TRBV9 * 02的12此外,TCR和HLA内的单核苷酸多态性(SNP)与TCR V基因使用的差异相关,6,10并且已显示单卵双胞胎中的TCR库比无关个体的库更相似,5证明遗传学在TCR库的发育中的作用。然而,大规模的全基因组关联研究(GWAS)仅涉及TCR基因座两次,特别是在嗜睡症13,14和移植后的肾功能。15TCR多态性和表型结果之间的脱节可能存在几个原因,包括但不限于样本量小、基因分型不充分、使用不完整的参考组装和疾病/样本异质性。不完全的基因分型可能是由于抗原受体基因座的复杂重复性质类似于免疫球蛋白(IG)基因座,TCR基因座已经通过基因复制事件形成,16、17这导致TCR基因家族的大规模扩增。由于免疫受体基因座(如TCR和Ig)的重复和重复结构,已经提出短读段下一代测序(NGS)在这些区域中表现次优。18,19特别是在Ig重链基因座(IGH)中,我们先前已经证明使用NGS会导致高假阳性率。CellGenomics 2,100228,December 14,2022?作者。1这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。会开放获取技术2细胞基因组学2,100228,2022表1. 研究中使用的样本样品家庭与先证者的人口(简称)超总体覆盖读取长度(平均值) 读取质量,%(平均值)NA18506Y013孩子约鲁巴语(YRI)AFR71.14,17799.93NA18508Y013母亲约鲁巴语(YRI)AFR6076,03599.91NA18507Y013父亲约鲁巴语(YRI)AFR379.95,32099.92HG02059 VN061 孩子越南语(KHV)EAS2765,93499.91公司简介VN061 母亲越南语(KHV)EAS227.45,09599.92HG02061 VN061 父亲越南语(KHV)EAS218.95,45399.91NA18956NANA日语(JPT)EAS337.44,31299.93NA18517NANA约鲁巴语(YRI)AFR303.75,37999.91NA10831NANACEPH(CEU)EUR3065,20199.92HG01361 NANA哥伦比亚(CLM)AMR98.65,02499.90HG01175 NANA波多黎各(PUR)AMR106.75,75399.93和负变量。20由于这些技术障碍,我们还没有对这些免疫受体基因座的遗传多样性的全部范围进行表征,10限制了我们对生殖系变异在TCR功能中的作用的理解。在这里,我们描述了一种新开发的基于探针的捕获设计的应用,以进行长片段靶向富集的TRB和TRA/D基因座的高保真长读单分子实时(SMRT)测序。为了提供一个概念验证数据集,证明这种方法的独特价值,我们已经生成了两个三人组和五个不相关的美国,非洲,东亚和欧洲血统的个体的靶向SMRT测序数据。首先,我们展示了这种基于捕获的测序方法的功效以及它如何用于产生单体型分辨的组装。然后,我们使用这些组件来识别不同类别的变体,包括SNP,插入或缺失(indels)和结构变体(SV),并解析和策划全长基因和等位基因。使用从来自相同个体的短读NGS解析的变体,我们比较了测序方法之间的一致性。本研究证明了一种有效解析TRB和TRA/D基因座的稳健且准确的方法,验证了先前鉴定的变体,并在提供有效解析TRB和TRA/D遗传学在TCR相关表型中的作用的框架方面向前迈出了一步。设计理想的基因分型实验应该允许所有变体类型的综合检测和基因分型,包括高度多态性和富含片段性重复和重复的复杂基因组区域中的那些。TCR基因座的基因分型方法先前已经利用靶向短读段基因组方法或适应性免疫受体库测序(AIRR-seq)方法;然而,这些努力仅集中在基因变体上已经证明了长读全基因组测序用于更完全地解析基因组变体(即使在复杂基因座中)的效用。然而,将长读全基因组测序应用于大的群组目前是不实际的。以前,我们选择性测序IGH基因座使用长-通过应用定制的寡核苷酸捕获板进行读段测序,所述定制的寡核苷酸捕获板允许富集IGH DNA的长读段测序引物。这种方法的主要好处是,它允许在大规模的人类基因组的最多态区域之一中解析复杂的单体型变异,从而提供了以具有成本效益的方式利用长读段测序的优势的机会,即使在大的群组中也是如此。鉴于TCR基因座的复杂性反映了在IG基因座内观察到的复杂性,我们采用了我们的方法用于TRA/D和TRB基因座。为了做到这一点,我们已经扩展了我们以前开发的计算框架,以允许TRA/D和TRB单倍型解析组件,SNP,插入缺失,SV和基因等位基因的分辨率。我们通过评估母亲-父亲-孩子三人组中的孟德尔遗传来验证我们的设计,并针对匹配的NGS数据集测试我们的方法。我们的设计包括湿实验室实验方案和具有几个关键数据可交付的端到端信息学管道:(1)具有分阶段HiFi读取比对的BAM文件,(2)分阶段组装比对,(3)具有SNV的VCF,具有(4)indel和(5)SV的BED文件,以及(6)具有组装和(7)基因等位基因的FASTA文件这些输出以其他常用基因组管道和工具采用的标准数据格式提供,允许下游分析和无缝集成到其他分析工作流程中。结果TRA/D和TRB基因座的靶向长读段测序我们基于跨越TRA/D和TRB基因座的序列靶标(hg 38,染色体chr 22:22,000,934 - 22,953,034; chr 7:142,270,924 - 142,843,399)设计了定制寡核苷酸(oligo)捕获组(Roche KAPA Hyper-Choice)。到为了证明这种方法的实用性,我们在来自1000个基因组计划(1KGP)群组的11个个体中产生了长片段捕获文库(4-细胞基因组学2,100228,2022年12月14日3会开放获取技术C图1.靶向HiFi测序生成高度准确的长读段(A和B)HiFi读取(A)长度和(B)质量。(C)TRA/D和TRB的覆盖范围每种颜色代表不同的样本。n = 1;波多黎各人,n = 1)。1 KGP的目标是通过使用多重测序/基因分型方法(主要是短读和基于阵列的方法)对来自26个人群的2,504个个体和129个母亲-父亲-子女三人组进行测序,创建人类遗传变异的全球参考。来自这些样本的DNA是商业上可获得的,使它们成为测试和基准不同的协议和测序平台以及检测不同人群中的新遗传变异的理想选择。将文库多重化并在PacificBiosciences Sequel IIe系统上测序,分别产生范围为4.2至6kb(图1A)和99.90%至99.93%(图1B)的平均高保真度(HiFi)读取长度和在两个基因座上,每个碱基的平均HiFi读段覆盖范围为71.3至607.3(表1)。来自捕获方案的测序DNA的覆盖率预期不遵循泊松分布,如来自全基因组测序数据的典型分布。因此,我们凭经验评估了在TRA/D和TRB基因座上的每个碱基位置处生成的捕获数据的覆盖率(图1C)。 在两个不同样品中只有两个区域(1,091 bp,HG 02060; 374 bp,HG 01175)具有0.3的覆盖度;在剩余的9个样品中,所有碱基被至少1个HiFi读数跨越(图1C)。HG 02060和HG 01175中覆盖率为0.3的两个区域在其他9个样品中的覆盖率范围为38.3~ 311.3,表明这两个样品中覆盖率的缺乏可能是由于杂交或测序中的固有变异所致总之,这些指标证明TRA/D和TRB使用该靶向定制寡核苷酸捕获组和长读段测序框架被有效捕获和测序。产生TRA/ D和TRB基因座的单倍型分辨组装我们接下来评估了我们产生TRA/D和TRB单倍型特异性组装体的能力。按照Rodriguez等人概述的方法,使用来自基于捕获的测序数据集的HiFi读数鉴定并定相 20 个在不相关的样本中(n =9),平均1,356个(TRA/D)和1,110个(TRB)杂合SNP被鉴定。平均而言,这些SNP中的>99%(1,353,TRA/D; 1,105,TRB)用WhatsHap工具进行了定相,分别允许57%至93%(平均值= 78%)和29%至95%(平均值= 66%)的TRA/D和TRB被完全定相。装配定相的变化与每个样品中鉴定的杂合位置的数量相关。例如,日本样本NA18956具有最少的碱基定相(TRB中为29%)和最少的杂合SNP(n = 463)。然而,所鉴定的多态性的低数量不是由于低读段覆盖,因为该样品具有99-3个平均碱基覆盖。最长的单倍型块分别代表71%和83%的TRA/D和TRB基因座,这表明,对于至少一些样品,这些基因座中的大多数可以被定相为单个块。每个样品最大的组装重叠群的大小范围为158至653 kb一B4细胞基因组学2,100228,2022会开放获取技术图2. TRA/D和TRB中的Trio组件高度精确(A和B)TRA/D(A)和TRB(B)组装的高度一致性的例子显示在两个三人组的父母和先证者之间GENCODE(v.24)注释轨道显示。(mean TRA/D和TRB中的DNA片段长度分别为100 ~ 326 kb(平均长度为180 kb)和295 kb(平均长度为295 kb)。接下来,我们评估了三个先证者HG 02059和NA 18507是否可以使用SNP与父亲和母亲数据进行完全定相在这两个先证者中,TRA/D和TRB的两个单倍型都被完全定相和解决,包括20.2在TRB的两个先证者单倍型中都发现了20.4kb的插入。使用亲本重叠群评估TRA/D和TRB组装的准确性(图2)。HG 02059母体遗传的单倍型与HG 02060(母体)重叠群仅具有63 bp错配,共同跨越TRA/D和TRB基因座,代表大于99.996%(1,491,720/1,491,783 bp)的组装准确度。同样,TRA/D和TRB的父系遗传单倍型与HG 02061(父亲)重叠群仅具有55 bp错配,代表99.997%(1,642,320/1,642,375)的组装准确度。从NA 18507产生的组装物的结果是相似的,对于基因座和母本/父本单倍型两者具有99.996%的准确性。总之,这些结果表明,TRA/D和TRB可以用我们的方法以高质量完全重建。从二倍体组装体中准确检测SNP、indel和SV使用单倍型特异性组装,评估包括SNP、indel(2-首先,在两个三人组中使用孟德尔遗传评估遗传变异的准确性。在HG02059和NA18506中分别鉴定出4,087和4,611个SNPs,其中4,065个(99.50%)和4,571个(99.13%)符合孟德尔遗传。在HG 02059和NA 18506中,indel的孟德尔遗传率分别为97%(382/394)和94%(448/ 475),SV的孟德尔遗传率分别为93%(14/15)和95%(19/20)。这些数据表明,TRA/D和TRB内的变异正在被准确检测。在不相关的样本中(n = 9),每个样本在TRA/D和TRB中鉴定的SNP、插入缺失和SV的平均数分别为2,470和1,802,260和132,细胞基因组学2,100228,2022年12月14日5会开放获取技术一BCDEF图3. TRA/D和TRB(A-C)的每样本计数的(一)SNP,(B)插入缺失,和(丙)SVS检测从TRA/D和TRB组件.(D和E)从长读段测序(LRS)捕获组件和1 KGP 3(左)和1 KG-303(右)变体调用集检测的SNP对于(D)TRA/D和(E)TRB的比较;显示了具有最高(左)和最低(右)一致率的样品。(F)IGV屏幕截图显示TRB的示例区域(chr 7:142,438,390 -所示的图是(1,顶部)仅存在于1 KG-303变体调用集内的SNP,(2)1 KG-303 Illumina 30323 151 bp短读段数据,(3)PacBioHiFi读取和(4,底部)PacBio HiFi组装。PacBio HiFi读数解析的约20 kb插入以蓝色突出显示。4.2和6.3(图3A正如预期的那样,大多数SNP和插入缺失位于基因间区域内,但在每个样本中,我们观察到TRA/D和TRB基因内的平均36.33和61.44个SNP。非冗余的总数TRA/D和TRB中的SNP分别为5,072和3,385,其中只有10和16 个 SNP 在 dbSNPv 154 中 缺 失 。 然 而 , 需 要 注 意 的 是 ,dbSNPv 154缺失TRA/D6细胞基因组学2,100228,2022会开放获取技术(图例见下页)细胞基因组学2,100228,2022年12月14日7会开放获取技术和TRB。这表明,虽然以前的研究使用大型队列已经确定了这些SNP,但他们没有在足够的样本中解决它们以确定其等位基因频率。此外,这些SNP可能并不罕见,因为在本研究中的9个不相关样本中的2个或更多个中发现了1,443个(71%)我们还注意到,TRA/D和TRB中的SNP密度高于在整个染色体14和7上观察到的SNP密度(图S1A和S1 B)。对于6个样本,我们使用1 KGP 3期(1 KGP 3)SNP计算14号和7号染色体上10 kB窗口中的SNP数量,代表分别与TRA/D和TRB基因座进行比较的背景SNP密度。在14号染色体和15号染色体的样品中,每10 kb窗口的SNP平均数为1.5kb。7号染色体为15 ~ 18号。在TRA/D和TRB中,SNP密度分别为25 - 30和20 - 26(图S1)。虽然在TRA/D和TRB中观察到的SNP密度升高,但它们不如在HLA中发现的那些高(图S1B)。有趣的是,增加的SNP密度在基因座中并不均匀分布。TRA/D和TRB都含有数目增加的区域,SNPs(图S1)。例如,所有样品均含有71至87个SNP的10 kb窗口跨越chr 14:21,890,001-类似地,TRB中跨越chr 7:142,380,001-此外,尽管TRA/D和TRB中的SNP密度升高,但在两个基因座中也凭经验观察到纯合性(ROH)的运行,其中在TRB中观察到最长的ROH(图S2和S3)。这可能与先前报道的TRA/D和TRB21之间重组率的差异(2.3对0.3cM/Mb)有关,因为重组率低于平均水平的基因组区域已显示具有较长的ROH区22我们在TRB基因座上鉴定了3个>20 kb的SV,其中2个在9个无关样品中具有多态这些多态性SV之一涉及基因TRBV 6 -2、TRBV 3 -2和TRBV 4 -3的缺失。我们还检测到许多基因间SV,其中最大的是1,044bp缺失。最大的基因间插入为665 bp,表现为一个37 bp的重复序列.其他SV包括移动元件(ME)序列的插入和缺失。例如,在6个个体中发现了331 bp的Alu插入。在多个样本中也发现了非重复区域中的额外SV。例如,在5个和6个个体中分别发现这些SV的位置及其在样本中的基因型见表S1。长读段和短读段衍生变体之间的比较我们以前已经报道了大量的假阳性和假阴性SNP从短读基因组数据在IGH基因座。20鉴于IGH和TCR基因座是进化相关的,在重复序列和节段性重复方面具有相似的结构特征,我们想确定用TCR基因座内的短读段数据鉴定的SNP为了评估这一点,我们将源自我们在6个不相关个体中的长读段捕获数据的SNP基因型调用与源自在这些相同样品中生成的两个短读段数据集的那些调用进行了比较:(1)来自1 KGP的3期变体调用集(称为1 KGP3), 23和(2)来自最近生成的303 WGS Illumina NovaSeq6000 23 151配对末端、TruSeq无PCR序列数据的变体调用(称为1 KG-303;图 3D和3E)。24存在于长读段SNP数据集中的1 KGP 3 TRA/D和TRB SNP的百分比范围分别为94%至96%和84%至93%(图3D和3E)。当与1 KGP 3调用集相比时,仅通过长读段捕获数据鉴定的SNP数量在TRA/D和TRB中分别为268至301(11%这表明1 KGP 3调用集在TRB中具有高的假阳性率和假阴性率,在TRA/D中具有高的假阴性率。对于1 KG-303调用集,对于两个基因座,仅通过长读段检测到的SNP的数量对于TRA/D和TRB,仅通过长读段鉴定的SNP范围分别为80至105(3.6%此外,还通过长读段SNP数据集鉴定的1 KG-303SNP的数量范围为97%至99%(图3D和3E)。然而,对于TRB,相反的位点是真实的;在长读段SNP数据集中发现的1KG-303SNP的百分比范围为25%至34%(图3D和3E)。我们确定1 KG-303中假阳性SNP的显著增加与所使用的参考基因组有关。对于1 KGP 3调用集,使用GRCh 37/hg 19,对于1 KG-303调用集,使用GRCh 38/hg 38。GRCh37/hg19在TRB中相对于GRCh 38/hg 38有3个~ 20 kb的插入我们观察到,在1 KGP 3 -303数据集中,源自约20 kb插入的读段与GRCh 38/hg 38参考中的TRB的其他区域错配(图3F);这与TRB的其他区域相比是不一致的。在用于产生1 KG-303调用集的参考文件中存在具有插入序列的替代TRB单倍型(chr7_KI270803v1_alt)的事实。为了进一步评估仅从长读段或仅从1 KG-303调用集鉴定的SNP的潜在有效性,我们确定这些SNP是否在具有低的SNP的区域中。图4. GRCh 38/hg 38和GRGRh 37/hg 19(A) TRB基因座GRCh 38/hg 38 7号染色体、GRCh 37/hg 19 7号染色体和GRCh 38/hg 38 chr7_KI 270803v1_alt之间的点图使用Gepard生成点图每个点代表比较序列之间的序列同源性。对角线中的间隙表示插入/缺失。垂直于对角线的点表示反转。(B) 来自chr7_KI270803vl_alt和GRCh 37/hg 19 7号染色体的TRB基因座与来自GRCh 38/hg 38 7号染色体的TRB基因座比对。两种比对进一步证明了参考单倍型之间的遗传差异特别是chr7_KI 270803v1_alt的比对,鉴定了三个~20 kb的插入,由紫色标记指示GENCODE(v.24)注释轨道显示。(C) chr7_KI270803v1_alt组装的所有样品中的HiFi读数覆盖率。阴影区域表示chr7_KI 270803v1_alt中的三个~ 20 kb插入(D) UCSC基因组浏览器chr7_KI270803v1_alt的屏幕截图显示了插入中的基因。显示GENCODE(v.36)注释轨迹8细胞基因组学2,100228,2022会开放获取技术B一图5. TRA/D和TRB等位基因多样性从(A)TRA/D和(B)TRB长读段组装体解析的基因等位基因每种颜色代表一个等位基因或一个缺失的基因等位基因。黑点标记的等位基因是IMGT中未记录的等位基因。具有两个不同等位基因的基因由两个实心框的存在指示。根据超人群标签(EAS,东亚; AMR,美洲; AFR,非洲)安排样本。短读映射能力(图S4)。具体而言,我们使用Umap多读段可映射性概率,其表示指定区域内的给定k聚体唯一映射到参考的概率。对于具有由长读段(平均值= 0.28; n = 255)唯一鉴定的SNP或仅存在于1 KG- 30 3调用集中的SNP的碱基,Umap多读段可映射性评分(k-mer = 24)(平均值= 0.79; n = 7,362)显著低于SNP与两个数据集重叠的碱基(平均值= 0.82; n = 5,452;单侧双样本Kolmogorov-Smirnov测试,第2.23 10- 16页)。这表明,差异在数据集之间进行的调用可能部分是由于差异,将短读段映射到基因组中的重复位点。大结构差异之间三TRB参考单倍型TRB区域内GRCh 38/hg 38和GRCh 37/hg 19参照之间的大的结构差异已经被注意到。25,26在上一节中,我们证明了来自短读段数据的大量假阳性SNP定位于约20 kb的大插入缺失的主要染色体,GRCh 38/hg 38中的染色体因此,我们进行了重点分析这些区域在这里更直接地评估它们在捕获组装中的支持在GRCh38/hg 38和GRCh 37/hg 19参考文件之间,有3种TRB单倍型可用。比较GRCh 37/hgl 9和chr7_KI270803vl_alt交替重叠群与GRCh 38/hg 38 揭 示了GRCh 37/hgl 9中 的倒 位 和缺 口以 及chr7_KI270803vl_alt中的三个20 kb插入(图4A和4 B)。我们通过将这些数据映射到chr7_KI270803v1_alt单倍型来评估这些事件是否得到此处生成的HiFi读取数据的支持(图4C)。我们发现没有检测到反转,这表明该事件是一种罕见的SV或错误组装。在人类基因组中其他先前表征的错误组装区域中也发现了假倒位27、28chr7_KI 270803v1_alt TRB单倍型另外,似乎是次要单倍型,因为在我们的组群中,18个单倍型中只有2个具有所有三个~20 kb插入。然而,随着用于TRB基因分型的其他方法的开发因此,使用chr7_KI270803v1_alt序列将是有益的,因为它代表最长的单倍型并且含有5个功能基因(TRBV 6 -2、TRBV 4 -3、TRBV 6 -9、TRBV 7 -8和TRBV 5 -8)。和一个假基因(TRBV 3 -2;图4D)。细胞基因组学2,100228,2022年12月14日9会开放获取技术检测的TRA/D和TRB等位基因分析TCR库测序数据的关键步骤是将读段与TCR种系基因数据库进行比对,以鉴定给定读段中存在的V、D和J等位基因。因此,利用一个完整而准确的等位基因数据库是很重要的. 为了确定靶向长读段捕获测序可以帮助完成TCR种系数据库的程度,我们首先对两个三重组中的等位基因进行基因分型以测量基因分型准确度,然后对剩余样品进行基因分型(图5;表S2)。在HG 02059中鉴定的所有(n = 207)TRA V和J以及TRB V、D和J等位基因也在亲本中鉴定。NA 18506也是如此,除了基因TRAJ 18;在这种情况下,在组装中错误地鉴定了另外的等位基因。然而,直接使用映射的HiFi读段有助于表征正确的TRAJ 18等位基因;例如,58个HiFi读段含有在双亲中发现的等位基因,并且没有读段支持组装中鉴定的等位基因。接下来,我们对所有9个不相关样本的等位基因进行基因分型(图5;表S3)。每个TRA V和J基因观察到的平均等位基因数分别 为 1.24 和 1.06 , TRB V 、 D 和 J 基 因 为 1.19 、 1 和 1.06 ,TRDV、D和J基因为1.33、1和1.06。这相当于每个样品平均有26.7个杂合基因然而,值得注意的是,纯合性和杂合性模式偏向TRA/D和TRB基因座中的特定基因对于TRA/D和TRB中几乎一半的基因(179个中的88个),在所有9个样品中均未观察到等位基因变体相反,对于7个基因(TRAV 27、TRAV 36 DV 7、TRBJ 1 -6、TRBV 10 -3、TRBV 30、TRAV 12 -2和TRAV 8 -4),我们在至少六个个体中观察到杂合等位基因调用我们接下来评估了我们的样品中新等位基因的出现(即,在International ImmMuno GeneTics [IMGT]数据库中未发现的等位基因;表S4)。在TRA、TRB和TRD中,分别有42、35和2个新等位基因在这些新的等位基因中,4个TRBV等位基因由于过早终止密码子而被预测为TRAV 8 -4(n = 5)为新等位基因在所有新等位基因中,在组装体中发现了13个(16%),并且在2个或更多个个体中得到>10个HiFi读段的支持。因此,这里的66个推定的新等位基因仅在9个不相关样品中的一个中发现;然而,在所有情况下,这些等位基因由每个样品数据集中的两个组装和>10个 HiFi读段支持考虑到我们对组装准确性的估计,以及三个数据集中TCR基因/等位基因基因分型的召回,我们怀疑这66个等位基因可能是真实的。提供额外的支持,35个TRB等位基因中的13个与最近使用AIRR-seq的研究中报道的那些相同。10 ,29总之,这里鉴定的75个推定的新功能等位基因具有将IMGT中可用的等位基因从总共341-416个功能/开放阅读框等位基因增加22%的潜力虽然所有样品都含有新的等位基因,但非洲血统的样品在该数据集中携带最新的等位基因(图5)。这可能是由于在非洲人群中发现了更大的遗传变异,以及非洲样本在免疫基因组数据库中的代表性不足二十三,三十许多最近的研究已经发布了TCR等位基因数据库,其中等位基因来自1KGP VCF文件。一个这样的数据库是pmTRIG。第31章使用短读数据集管理免疫受体基因座已经提高了。32,33我们检查了pmTRIG中存在多少新等位基因至关重要的是,pmTRIG数据库使用了2,548个1KG样本,包括本研究中测序的9个样本。然而,我们发现在本研究中鉴定的新TRA、TRB和TRD等位基因中,pmTRIG中分别仅存在32个(76%)、16个(46%)和0个(0%)与我们对短读段和长读段变体调用集的比较一致(图3D和3E),这表明用NGS技术衍生的短读段数据集可能不能检测TRA/D和TRB区域中的所有新等位基因,并且可能导致错误的等位基因变体调用。TCR的另一个关键区域是恒定结构域,其与CD3复合物相互作用以进行适当的T细胞信号转导。在这个队列中,我们还对TRA、TRD和TRB的恒定基因等位基因进行了基因分型。有趣的是,尽管这里调查的样本来自不同的人群,但TRDC只有一个等位基因(即,TRDC*01)。对于TRAC,队列中仅存在两个等位基因,TRAC*01和一个新的TRAC等位基因。TRAC*01等位基因在分析的18个单倍型中的15个(83%)中注释(不包括先证者;表S5)。在TRB中存在两个恒定基因,TRBC 1和TRBC 2。对于TRBC 1,大多数单倍型(83%)含有TRBC 1 *03,2个携带(11%)TRBC 1 *01,并且仅单个单倍型携带TRBC 1 *02。最后,对于TRBC 2,我们鉴定了6个等位基因,包括4个新等位基因(表S5)。TCRB 2 *01和TCRB*02分别在53%和24%的单倍型中存在。有趣的是,在这里注释的TCR恒定基因中鉴定的5个新等位基因中有4个这些结果表明,TCR恒定基因内的等位基因变异可能比以前认为的更广泛,并且在非欧洲人群中采样不足。讨论TCR对T细胞功能和适应性免疫应答至关重要。尽管几项研究已经发现了遗传学在形成TCR库中起作用的证据,但只有两项GWAS涉及疾病病原体形成中的TCR基因座。139,10,25因此,我们扩展了我们已发表的免疫基因组学框架,以在跨越非洲、东亚、美洲和欧洲人群的两个三人组和五个无关个体中使用长读段测序来选择性地测序和组装人TCR基因座总的来说,该数据集显著扩展了TRA/D和TRB基因座的可用注释长读段单体型组装的多样性和数量。首先,我们的分析表明,TCR基因座可以被有效地捕获、测序,并使用长读段数据组装成定相的二倍体组件。重要的是,在所有样本中,TRA/D和TRB基因座上>99.9%的碱基被HiFi读段跨越,并且使用基于读段的变体定相允许我们生成单倍体特异性组装重叠群,在一些情况下长度延伸至653 kb重要的是,在三个先证者中,完全分相组装是可能的,这表明当分相组装时,10细胞基因组学2,100228,2022会开放获取技术变体是可用的,我们的方法允许跨越这些基因座的单倍型组装的完全重建。与我们以前使用这种方法对人IGH基因座的分析一致,来自两个三胞胎的先证者和父母的20个组装体的比较表明每个碱基的组装准确度> 99.9%。这种组装准确性也反映在亲本和先证者样品之间的变异调用集中,其中>99%的SNP基因型遵循孟德尔遗传模式。总之,这些三人组的初步分析突出了使用我们的方法在扩展样本集中更深入地表征TRA/D和TRB遗传多样性的实用性。通过对9个不相关样本的分析,我们发现长读段组装可用于全面检测SNP、indel和SV。与Ig基因座的观察结果相似,20,34尽管可能不太广泛,但我们注意到TCR基因座的遗传多样性升高,表现为相对于7号和14号染色体平均值显著更高的SNP密度。有趣的是,相对于TRB,TRA/D中的SNP密度略高,但相比之下,在TRB基因座中检测到更多的SV。然而,值得注意的是,TCR基因座中含有多态性基因的SV的数量总体上少于目前在IG基因座,特别是IGH中描述的。这与先前的建议一致,即TCR基因座内的序列进化受SV的影响较小。[11]重要的是,TRB中的一个基因缺失在这里研究的样本中非常常见;它在所有9个测序的无关个体中都以纯合状态存在。能够将我们的方法扩展到更多的个体将有助于评估人群中的SV频率。SNPs也可能是这种情况。我们的分析显示,在我们的样本中鉴定的大部分SNP在dbSNP中缺乏等位基因频率数据。这些变异中的许多也很难使用来自1KGP的较旧的短读段数据集虽然利用更高的覆盖率和质量的短读段数据集表现更好,但我们的分析表明,明智地使用正确的基因组参考,解释特定的SV和替代单倍型,对于确保读段作图和基因分型准确性至关重要。事实上,利用适当的TRB参考单倍型将可能减少通过短读段鉴定的假阳性SNP的数量未来的工作应包括利用适当的参考或潜在的能够整合不同单倍型的参考图基因组重新分析测序数据35-36我们对TCR单倍型的表征包括对样本中TCR基因拥有完整的单倍型有利于发现广泛的等位基因变异,包括许多新的TRA/D和TRB等位基因的存在。事实上,我们确定了85个无证(非IMGT)等位基因,只有9个无关的个人突出了严重的赤字,目前存在于生殖系数据库。考虑到我们的发现以及最近的其他努力,强调了在人类群体中完全编目TCR基因多样性仍需完成的工作。10,30目前,这些缺失的生殖系基因和等位基因对TCR库测序研究的分析和解释的影响尚不清楚,但预计对生殖系基因/等位基因分配工作具有深远的影响,类似于对表达的B细胞受体库的影响如在IG基因座中观察到的,38-最终,我们认为,改善TCR基因座遗传多样性的表征将阐明这些区域在各种疾病和临床背景下驱动TCR和T细胞关键功能的作用这项研究表明,我们的方法比其他现有的方法的有效性。正如我们对IG基因座所展示的,我们的方法是可扩展的,提供了以高通量方式利用它对100到1,000个样品进行测序的机会。此外,尽管我们在这里集中于TRB和TRA/D的分析,但是这种方法也可以容易地扩展到包括TRG基因座。我们的方法的未来应用将允许发现和表征编码和非编码中的多样性(例如,这些关键免疫基因座的调控区,具有更全面地对TCR变异体进行分类的潜力,类似于对MHC/HLA基因所做的工作MHC/HLA基因座的单倍型分型和基因分型是许多免疫研究中的标准实践,因此我们的方法提供了类似地操作TCR基因的基因分型的机会,包括有效地结合MHC/HLA分型来进行这一操作,以更好地理解对TCR-MHC相互作用的功能的遗传影响。此外,将我们的方法与AIRR-seq合作可以促进TCR变体的鉴定,所述TCR变体影响TCR库8、10的组成以及B和T细胞之间的串扰T细胞依赖性B细胞活化。我们预计,随着AIRR-seq在研究和临床领域的使用越来越普遍,限制我们的研究有两个主要的局限性。我们使用从解析的TCR单倍型设计的寡核苷酸探针提取TCR α、β和δ位点。新序列(即,插入)与来自先前解析的单倍型的序列没有序列相似性,然而,在这种情况下,我们期望观察到新插入的特征软剪切碱基),允许使用全基因组测序或其它正交方法进行潜在的后续测序。一旦新的插入被解决,探针就可以被设计成拉下这个序列。另一个理论限制是HiFi读取的读取长度虽然我们能够解析20 kb插入,但4.2-6 kb读段可以解析的SV存在潜在限制然而,如在先前的限制中,SV的特征仍然应当被观察,并且因此可以根据需要被检测用于更深的表征。STAR+方法本文件的在线版本提供了详细的方法,包括以下内容:d关键资源表细胞基因组学2,100228,2022年12月14日11会开放获取技术d资源可用性B电极导线触点B材料供应情况B数据和代码可用性d方法样本B长读段文库制备和测序
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功