没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁26(2021)100762对20个癌症外显子组数据集的全面计算机计算分析和相关体细胞变体的鉴定揭示了用于检测各种癌症类型的潜在分子标记物Padmavathi P.,阿纳加湾Setlur,Mr.Rashekar K.,Vidya Niranjan*生物技术系,R V工程学院,Bengdalu,560059,印度A R T I C L EI N FO保留字:癌症外显子原始数据预处理变异识别突变谱CD82ANO1A B S T R A C T有几种疾病与基因突变有关。癌症就是这样一种疾病,通常被认为是在后期阶段治疗的挑战。在早期阶段识别致癌基因可以提供更好的生存机会。因此,本研究旨在计算研究属于五种癌症类型的二十种癌症外显子组,并鉴定可能指向癌症预后的体细胞变体。检索了20个外显子组数据集,并进行了原始数据预处理检查,包括FastQC检查,衔接子修剪,缺口对齐和细化,以评估其质量。然后使用评估的对每个数据集进行独特SNP的鉴定,并仔细检查它们的功能以找出潜在的生物标志物。研究结果显示,所有20个外显子组数据集都通过了质量检查,并在数据处理、过滤和变体分析后识别出4181个变体。对突变谱的综合分析揭示了耐受的、有害的、可能的和可能的损害 性的以及良性的变体的数量。CD82(分化簇 82), 在人弥漫型胃癌数据集中发现,(Anoctamine 1)在肝内胆管癌中的表达,发现在各种癌症类型中显示良好的基因表达谱,包括甲状腺癌、结直肠癌、头颈癌、胃癌和食管癌,对于CD82和结直肠癌、头颈癌、胃癌、食管癌,膀胱癌,肾脏和肺部的癌症对于ANO1。两种潜在标志物之间的比较分析显示,CD82在比ANO1更多的癌症类型中上调因此,目前的计算研究为使用这些潜在的生物标志物提供了初步的见解用于各种癌症类型的早期检测和预后1. 介绍目前,大多数疾病都是由一组复杂的相互作用引起的,包括几个基因。虽然一个人可能不会遗传与特定疾病相关的突变基因,但在目前现有的环境条件和生活方式下,这个癌症是一种与参与调节细胞周期和修复机制的基因突变相关的疾病[1],如果在后期诊断,通常认为难以治疗,并且被认为是高风险的。癌症是由多种原因引发的,例如酒精或烟草滥用,职业致癌物,包括病毒在内的自然因素,以及非病毒因子,例如细菌,寄生虫和真菌以及其他病原体。致癌物质, 辐射和 合成 因素[2]。 此前,广泛的合作项目已经公开了大量关于肿瘤外显子组的数据和信息[3外显子组被认为是被注释的基因组的一部分,因为它被转录为RNA[7]。大约260,人类基因组中存在000个外显子组,包括DNA的所有基因编码区[8]。重点特别放在外显子上,因为大多数功能变异都隐藏在外显子组内[9]。1.1. 癌症外显子组分析的变化 几 重要驱动因素 基因,包括肿瘤* 通讯作者。电子邮件地址:vidya. rvce.edu.in(五)Niranjan)。https://doi.org/10.1016/j.imu.2021.100762接收日期:2021年9月13日;接收日期:2021年10月12日;接受日期:2021年10月12日2021年10月15日网上发售2352-9148/©2021的 自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页:www.elsevier.com/locate/imuP. Padmavathi等人医学信息学解锁26(2021)1007622抑制基因、癌基因、原癌基因和负责DNA损伤修复的基因导致主要的遗传不稳定性触发癌症[10]。此外,目前分析这些外显子组的策略是根据基因被修饰的频率来追踪那些重复出现的突变。其他方法包括为变异对蛋白质功能或结构的预测影响提供评分,并识别与单个残基相关的突变的空间簇[11]。此外,从肿瘤外显子组分析中准确鉴定导致癌症的所有基因被认为是大规模的,面临着几个挑战。尽管癌症基因被定义为那些携带突变导致细胞分裂不受控制的基因,但对于什么构成致癌基因仍然存在一些争议。对癌症外显子组中所有此类相似基因的彻底审查,包括基因间区域中的各种体细胞突变、种系变异或表观遗传改变,可以填补目前癌症外显子组研究领域中存在的一些空白。因此,使用高通量计算机模拟方法和巨大的并行测序策略对癌症外显子组进行分析,为快速变异分析铺平了道路,特别是被认为具有遗传起源的癌症等疾病。1.2. 下一代测序由于桑格测序的缺点[12],引入了一种称为下一代测序(NGS)的新技术,其允许以高速、高通量和精确度对数千个样品进行测序[13]。目前,诸如Illumina Miseq和Hiseq、Roche 454、Ion Torrent和Life technologies SOLiD [14,15]的 NGS平台此外,全外显子组测序(WES)被用于检测与多种疾病(包括癌症)相关的基因[16]。研究表明,罕见的体细胞突变可以很容易地检测到与WES,NGS技术的一部分,来自肿瘤样本,锚定至少5肿瘤内容[17]。NGS和WES的一些重要应用包括鉴定包含SNP、插入缺失、拷贝数变体(CNV)和单核苷酸变体(SNV)的罕见和新型突变体,遗传性癌症的基因检测,以及癌症的个性化治疗[18,19]。1.3. 挑战和目前的解决办法检测和鉴定突变的癌症相关基因和代表癌症进展阶段的分子标记物对于早期诊断患者是必不可少的。此外,它在设计适当的治疗方法,治疗策略或疾病预后方面也至关重要。由于癌症的检测和诊断依赖于对所涉及的分子途径的透彻理解,因此迫切需要通过分析现有的癌症外显子组来挖掘这些数据,以扩大遏制疾病的前景。尽管存在从表观遗传学和遗传学改变、途径变异的各种研究中积累的大量数据,但过多的分子信息只能提供对一般致癌机制的有限理解,进而提供对它们的容易识别[20]。因此,当前的研究广泛地调查了属于各种癌症类别的大量癌症外显子组数据集,以确定现有的变异Biotechnology Information,Sequence Read Archive)和DDBJ(DNAData Bank of Japan)[21,22]。下载在Illumina HiSeq上测序的全外显子组 捕获类型为 了进行比较 分析, 还使用Genome ReferenceConsortium数据库(https://www.ncbi.nlm.nih.gov/grc/human)检索了参考人类基因组hg 19和hg 38(Genome Reference ConsortiumHuman Reference 19和38)。检索的癌症外显子组数据集属于肝内胆管癌、人弥漫型胃癌、非BRCA 1/BRCA 2家族性乳腺癌、高级别浆液性卵巢癌和胰腺癌。成功检索了三个肝内胆管癌的样本文件,四个人弥漫型胃癌的癌症外显子组,七个非BRCA 1/BRCA 2家族性乳腺癌的文件,以及高级别浆液性卵巢癌和胰腺腺癌各三个癌症外显子组(表1)。2.2. 原始数据预处理在变体识别和处理之前,对20个癌症外显子组数据集2.2.1. 使用FastQC和MultiQC进行FastQC(https://github.com/sadrews/FastQC)和MutiQC(https:github.com/ewels/MultiQC)[23,24]提供了一种简单而有效的方法来对原始序列数据进行质量检查。一项研究综述并提出了用于癌症基因组测序数据检查和质量检查的各种重要软件,其中用于此类基因组质量评估的首选工具,包括通常要求人类癌症基因组的广泛体细胞变体的外显子组测序数据,是FastQC和MultiQC [25]。因此,检查每个读数和每个碱基的平均序列质量、每个碱基位置的核苷酸含量、GC的分布等,使用FastQC进行,原始数据序列为fastq格式。然后分析以HTML报告形式获得的输出。此外,为了证实FastQC结果,验证并获得所有20个数据集的原始数据的累积报告,以便更好地显示输出,采用了MultiQC。使用可配置的查询设置,上传输入(FastQC HTML报告),并对所有数据集重复运行MultiQC,以提高结果的准确性。输出生成为HTML文件,其中包含所有FastQC检查的累积分析,并进行了比较和彻底审查。2.2.2. 剪切适配器和间隙对齐使用Cutadapt软件(https://github.com/marcelm/Cutadapt)[26,27]进行具有fastq文件格式的输入的衔接子的剪切,其主要从原始数据读取中消除衔接子、引物和聚腺苷酸尾。与PEAT、Trimmomatic和BBDuk工具相比,Cutadapt还具有更高的精度(0.98)、高灵敏度(0.97)和良好的处理时间(16秒)[28]。此夕h表1从NCBI SRA检索的五种不同癌症类型和二十种癌症外显子组样品文件。癌症类型样本文件NCBI SRA ID&这为在前瞻性研究中寻找特定的生物标志物提供了一些线索。2. 材料和方法2.1. 癌症外显子组数据集二十 不同 NGS 测序 癌 外显子组 数据集encom-肝内胆管癌人弥漫型胃癌非BRCA 1/BRCA 2家族性乳腺癌高级别浆液性卵巢癌SRR894452、SRR900123、SRR900099SRR941051、SRR941052、SRR941053、SRR941054ERR166303、ERR166304、ERR166307、ERR166310、ERR166312、ERR166335、ERR166336ERR035487、ERR035488、ERR035489通过影响印度人口的五种主要癌症类型,从NCBI SRA数据库(国家癌症研究中心)胰腺癌ERR 232253、ERR 232254、ERR 232255提供了NCBI SRA中示例文件的超链接P. Padmavathi等人医学信息学解锁26(2021)1007623它处理的读取数量也与Flexbar 3.0和Skewer [28]相同,使其成为修剪适配器的合适工具。 因此,引物、衔接子和聚腺苷酸尾以容错方式定位,并从所有20个癌症外显子组原始序列读段中剪切。然后将获得的输出(修剪的fastq文件和日志文件)进一步与参考基因组比对。为了以高准确度和效率将预处理的读数映射到人参考基因组,对所有癌症外显子组读数进行空位比对或比对映射。采用Burrows-Wheeler变换(BWT)与Smith-Waterman 算 法 组合 使 用 的工 具 用 于 缺口 比 对 。Burrows-Wheeler Aligner(BWA)是一种用于将短读段与参考基因组进行比对的工具[29]。然而,Bowtie2(https://github.com/BenLangmead/bowtie2)由于结合了动态规划算法和全文分钟索引,因此具有更高的速度,更好的准确性和灵敏度[30]。因此,使用BWT算法的Bowtie2用于参照人类基因组hg19和hg38的空位比对。然后仔细检查以SAM文件格式获得的输出,并在变体调用之前进行进一步的改变。2.2.3. 通过SAM工具进行对齐细化和转换为了进一步提高所获得的比对的质量并减少错误的变体调用,通过几个精炼步骤获得所获得的比对输出。为此,使用了SAMtools(https://github.com/samtools)[31]。SAMtools是一种广泛使用的程序,用于分析从高通量测序获得的数据。它更快,并且具有改进的索引文件的能力,允许轻松快速地对BAM文件进行排序和写入[32]。因此,在本研究中,对读段进行分类,重新校准其质量评分,进行indel的重新对齐和读段的过滤。进行从SAM到BAM格式的转换,然后进行BAM排序和合并,因为BAM格式支持比对的快速检索,并且还具有紧凑的大小[31]。SAM/BAM格式将比对步骤与下游的其他分析分开,从而允许对基因组序列进行检查的集成方法。2.3. 变体的处理和调用为了从测序数据中鉴定突变,进行了处理和变体识别。使用PICARD进 行 变 体 处 理 , 并 使 用 GATK ( The Genome Analysis Toolkit ,https://github.com/broadinstitute/gatk)调用变体[33]。使用GATK管道调用变体被认为是金标准方法,最初于2010年发表[34]。GATK的F分数是精确度和召回率的调和平均值,为0.978,使其成为一个非常可靠的工具[34]。此外,已知GATK在测序和实验设计的各种平台上鉴定所有潜在变体[35],并且在发现外显子组数据集中的真实SNP方面表现非常好。因此,GATK优于其他体细胞变异体的呼叫者。因此,使用PIC-ARD进行PCR重复的标记,并且使用GATK进行局部重新比对以及碱基质量的重新校准,其中在应用适当的参数之后,将来自先前步骤的生成的BAM文件作为输入。通过PICARD建立BAM指数、SortSam和重新校准基础。一旦协变量的分析完成,变量就被调用。审查了以VCF文件和HTML报告形式获得的输出的 SNPs 和 插入缺失 所以 识别 是 提取 并过滤。使用snpEFF(http::pcingola.github.io/SnpEff/),因为snpEFF是独立于平台工作的开源工具,快速、准确、具有多生物体兼容性并且灵活[36]。snpEFF以VCF文件的形式生成输出,这些输出是为所有20个数据集生成的,并经过仔细检查。2.4. 变体后处理为了进一步处理注释后的变体,SNP SIFT(https:sift.bii.a-star.edu.sg/)[37]。SIFT允许将鉴定的变体分类为“有害的”、“耐受的”、“删除的低置信度“和“耐受的低置信度“类别[ 38-40 ]。使用SIFT原代序列预测编码非同义变体col(从耐受中分选不耐受),它预测导致癌症外显子组数据中变体形成的氨基酸取代是否影响蛋白质的功能。使用序列同源性,通过SIFT算法预测蛋白质序列中每个位置的所有可能取代的影响[41]。 预测评分,基于 该 评 分 对 变 体 进 行 相 应 分 类 。 使 用 Poly-Phen 2(https://github.com/hammerlab/vcf-annotate-polyphen)进行交叉验证[42]。Polyphen2也遵循同样的原则,并将其分类为被证实的 变体 作为 ”“也许吧 损害”, “可能造成损害“,“benign对获得的产出进行了彻底的审查。说明了识别和分析变体所遵循的流程图1.一、2.5. 独特SNP的鉴定对来自每个数据集的鉴定和处理的变体进行彻底分析,以发现独特的SNP。在数据集中仅出现一次的SNP被分类为独特的SNP。对这些功能及其基因细节进行了鉴定、深入研究,并开发了统计数据。进行独特SNP的分析以检测和分析可指向特定癌症类型检测的分子标志物的存在。2.6. 潜在标志物为了进一步验证和理解被鉴定为标志物的基因的表达,使用了称为GEPIA(GeneEX Pression Profiling Interactive Analysis)已被录用[43]。单基因分析是通过提供“符号”来进行的基因基因的分析以box图的形式进行,并仔细检查其完整的表达谱。为了从GEPIA获得BOX图,|Log 2 FC|截止值保持在1,p值截止值保持在0.01,抖动大小保持在0.4。选择数据库中所有可用的癌症数据集以获得表达谱,以与正常组织进行比较。对表达数据进行转换以进行差异分析,并获得log 2FC值作为中位数(肿瘤)-中位数(正常)[43]。 此外,人蛋白质图谱(HPA)[44]对潜在的标志物进行了检测,并检查了各种癌症类型的差异表达。还进行了鉴定的分子标记物之间的比较表达分析,以揭示标记物最主要表达的潜在癌症类型。对取得的成果进行了陈述和说明。3. 结果和讨论3.1. 原始数据预处理对成功检索的原始数据进行预处理,获得了更好的数据质量3.1.1. FastQC和MultiQC质量检查FastQC结果显示,在20个癌症外显子组数据集中,发现其中16个具有非常好的质量。他们的NCBI SRA ID为SRR941052、SRR941053、SRR941054、ERR166307、ERR166310、ERR166312、ERR166335、ERR232255 、 ERR232254 、 ERR232253 ,ERR035489 ,ERR035488,ERR035487,ERR166336,ERR166303和SRR941051。此外,具有合理质量的数据集电话是SRR900123,SRR900099,ERR166304,和P. Padmavathi等人医学信息学解锁26(2021)1007624Fig. 1. 用于癌症外显子组数据集分析的流程图。显示了管道中涉及的每个步骤的输入和输出文件格式。从NCBI SRA数据库检索癌症外显子组数据集。使用FastQC和MultiQC对原始序列进行质量评估。通过使用Cutadpat剪切衔接子进一步改进序列读数,并使用Bowtie2进行与人参考基因组(hg19和hg38)的缺口比对。使用SAMtools进行了SAM到BAM的细化和转换。此外,使用金标准GATK流水线调用变体,并使用snpEFF进行变体的注释。使用SIFT和PolyPhen2进行鉴定的变体的处理和其突变谱的分析然后对获得的最终结果进行仔细检查,以确定标记物。SRR894452。20个数据集中没有发现质量差的调用,表明所有数据集都可以进行进一步分析。所有外显子组的GC含量范围在43和46%之间,数据集ERR 035489(高级别浆液性卵巢癌)的最大GC含量为46%,均在可接受的范围内。作为FastQC质量检查的一部分,还获得了与每瓦片序列质量、每碱基序列含量、序列长度分布、每序列质量分数、每碱基GC和N含量、衔接子含量和序列重复长度相关的信息。结果表明,外显子组数据集的长度和序列质量一致片段此外,20个外显子组的每序列质量评分显示,不存在具有低质量评分的序列子集。这表明所有样品均符合该特定质量检测的要求。有时,观察到小百分比的序列出现在低质量区域中,然而,这可能归因于一部分序列将普遍具有低质量区域的事实,因此它们不需要被考虑。 此外,当每-在每一个被称为“N”的位置上研究发现,所有样品均通过了质量检查,P. Padmavathi等人医学信息学解锁26(2021)1007625=N在序列中的出现比例不低。这表明测序仪准确地进行了碱基识别。还注意到,虽然大多数样品清除了重复水平,但其中一些样品(如SRR894452_1 、 SRR894452_1 、 SRR900099_1 、 SRR900123_1 、SRR941051_1和SRR941051_2)落入警告类别。较低的重复水平表明较高的覆盖率,较高的重复水平表明富集偏倚,包括PCR扩增[23]。因此,合适的文库将具有图的最左边的大部分序列,指示多样性文库。此外,还计算了锂离子电池比例的累积计数(%)在每个位置具有衔接子序列的引物显示样品具有>0.1%的衔接子污染。所有样品均符合该检查,表明未发现许多衔接子序列生成的总体MultiQC热图在图中以绿色、红色和黄色显示区域(图1)。 2)的情况。 绿色区域表示样本在通过质量检查的情况下,橙色区域表示轻微异常的情况,而未通过质量检查的异常情况则用红色表示。结果表明,大多数样本通过了FastQC检查,而只有一些样本受到警告。 由于累积的质量检查证明了良好的结局,因此将其全部进行进一步分析。最近的一项研究分析了乳腺癌的外显子组测序数据,以确定变体,并使用FastQC和MultiQC来评估变体的质量。该研究观察到,在54个原始读数中,33个样本通过了质量测试,而其余21个样本落入了“warn此外,研究还显示,每序列质量评分的错误率小于0.2%[45]。然而,在目前的研究中,来自五种癌症类型的20个数据集的原始读数显示,其中16个数据集的质量非常好,而其余数据集的质量合理。在进一步分析后,他们的每个序列评分显示,没有序列的子集是低质量的。因此,当前研究中获得的结果与以前的研究结果略有不同,这可能是由于选择了不同癌症类型的外显子组以及其中存在的变异。3.1.2. 适配器修整和间隙对准Cutadapt输出以文本(.tX t)文件的形式生成,都经过了检查和整理。成功地进行了衔接子修剪,并且修剪了约0.6-1.5%的质量读数。所有数据集有一总过滤序列的更大比85%之后表2CutAdapt的结果显示了碱基对的数量和质量修剪的百分比,处理的总碱基对和过滤后回收的总碱基对。SL.没有癌症X染色体组数据集ID处理的总碱基对(bp)质量-修剪(bp)总写入[过滤](bp)1ERR0354874,893,001,344105,036,7064,723,406,866(2.1%)(96.5%)2ERR0354884,691,700,144154,861,2864,473,937,413(3.3%)(95.4%)3ERR0354893,294,453,81641,939,1603,201,298,570(1.3%)(97.2%)4电话:+86-10 -86666662,478,961,290106,826,4582,356,681,274(4.3%)(95.1%)5联系电话:021- 88888882,655,643,380384,884,6052,257,815,146(14.5%)(85.0%)6电话:+86-10 -86666662,462,167,18896,906,9922,350,715,7737ERR1663102,734,017,078(3.9%)146,071,243(95.5%)2,572,040,806(5.3%)(94.1%)8ERR1663122,684,681,454140,852,4452,528,296,813(5.2%)(94.2%)9电话:+86-10 -6663352,693,124,87683,937,4142,593,146,68010电话:+86-10 -86666662,646,468,162(3.1%)127,298,777(96.3%)2,503,670,136(4.8%)(94.6%)11ERR2322531,849,374,70060,812,7531,755,608,812(3.3%)(94.9%)12ERR2322541,816,972,09859,230,4391,725,168,01513ERR2322551,895,423,938(3.3%)67,918,902(94.9%)1,795,280,264(3.6%)(94.7%)14SRR8944528,044,945,526955,146,0007,050,853,434(11.9%)(87.6%)15SRR9000996,879,973,550600,480,9836,244,948,028(8.7%)(90.8%)16SRR9001237,312,905,505713,547,7936,563,669,745(9.8%)(89.8%)17SRR9410515,520,198,69035,442,3185,451,784,956(0.6%)(98.8%)18SRR9410525,565,084,660198,277,9155,335,983,678(3.6%)(95.9%)19SRR9410533,746,155,86082,818,9503,642,280,087(2.2%)(97.2%)20SRR9410544,174,894,35088,428,2854,062,759,829(2.1%)(97.3%)图二. 一式两份的20个癌症外显子组数据集的所有FastQC质量检查的热图。X轴指示不同的质量测试,并且y轴示出与热图中的绿色、橙色和红色区域相对应的数据集样本ID。红色区域表示未通过质量检查的数据集(异常样本)。绿色区域表示通过质量测试的外显子组数据集(正常样品),橙色区域显示落入警告类别的数据集(异常样品)。大部分样品通过了FastQC质量测试,质量良好,只有部分样品质量较差P. Padmavathi等人医学信息学解锁26(2021)1007626修剪,表示读数的良好质量(表2)。发现获得的读数比原始读数具有更好的质量此外,发现与人类参考基因组的空位比对在Bowtie2中是有效的,因为分数大于或等于设定的阈值。没有发现错误比对,这表明这些比对被进一步完善,并且可以用于变体识别。来自肝细胞癌外显子组的cDNA末端测序读段的大规模分析的先前发现排除了所有PCR重复的原始读段,并且通过剪掉聚(A)尾来改善读段的质量。此外,使用Bowtie2,将读数映射到人参考基因组hg38 [46],并且发现映射是有效的。在本研究中,使用CutAdapt修剪和改进癌症外显子组原始读数,并通过Bowtie2获得与参考hg38和hg19基因组的有效比对。因此,先前的研究结果支持了当前研究的结果3.2. 变异识别作为变体调用的输出生成的VCF文件显示了与处理的变体数量、读取的输入行、新变体数量和现有变体百分比相关的数据(表3)。在SRR941052中观察到的新型变体百分比最高(60.3%),SRR941053(59%),和ERR232255(59%)(在表3中以红色突出显示)。此外,在ERR 166336中发现了49.9%的现有变体,其次是ERR 166335和ERR 166312中分别为49.7%和47.6%(表3中以绿色突出显示)。在数据集ERR035487中处理了最大数量的变体,表3输入读数的行、处理的变体的数量、20个检索到的癌症外显子组序列中的新变体和现有变体癌症X染色体组数据集ID输入行读取处理的变体新型变体EX变体ERR035487279575273199149244123955(54.6%)(45.4%)ERR035489261204255686144854110832(56.7%)(43.3%)电话:+86-10 -86666661674051632769499268284(58.2%)(41.8%)联系电话:021 -888888818588518252910321879311(56.5%)(43.5%)电话:+86-10 -86666661573771536698814565524(57.4%)(42.6%)ERR16631097292957175074144976(53.0%)(47.0%)ERR16631277275759883983536153(52.4%)(47.6%)电话:+86-10 -66633574767730703677436296(50.3%)(49.7%)电话:+86-10 -866666675635741293715236977(50.1%)(49.9%)ERR2322531492011457318876256969(60.9%)(39.1%)ERR2322541470731437208711756603(60.6%)(39.4%)ERR2322551300641272387501052228(59.0%)(41.0%)SRR89445218464617841510112577290(56.7%)(43.3%)SRR90009989126870954768639409(54.8%)(45.2%)SRR9001231360721335237225461269(54.1%)(45.9%)SRR9410511612001556338811567518(56.6%)(43.4%)SRR94105223189722659513656690029(60.3%)(39.7%)SRR94105369380673843977327611(59.0%)(41.0%)SRR94105421979921082112051590306(57.2%)(42.8%)绿色突出显示:现有变体的最高百分比。P. Padmavathi等人医学信息学解锁26(2021)1007627其 中 在 279575 个 变 量 中 处 理 了 273199 个 变 量 作 为 输 入 。 发 现SRR941054中的序列改变最高,有2937个改变。SRR894452被发现有4554个替换,是所有其他数据集中最高的。此外,在SRR941054中预测 了 158 个 插 入 缺 失 , 在 SRR894452 中 发 现 了 13104 个 插 入 , 在SRR941054中观察到29175个缺失,并且发现ERR 035487具有241816个SNV(表4)。数据集SRR941054显示了最大数量的缺失、序列改变和插入缺失,并且是人弥漫型胃癌。这表明可以对该数据集中可以指向分子标记的SNP进行进一步探索。此外,可以使用几个管道从高通量测序数据获得变体并对其进行分析。在以前的研究中进行的比较研究对比了30种不同的调用和处理变体的管道[47]。最近的一项研究使用了105个乳腺癌外显子组样本,使用基于GATK最佳实践的NGS管道进行原始数据预处理来发现变体[48]。在研究中使用开发的NGS管道调用遗传变体(体细胞和种系)[48]。此外,前列腺癌的全外显子组测序研究使用流水线,其中使用FastQC评估原始序列的质量,并使用Vt和Annovar进行变异的调用。该研究检测到高影响的肿瘤特异性改变[49]。 此外,2020年发表的另一项最新研究分析了外显子组测序数据的肿瘤突变负担,其中使用GATK管道调用变体,并使用snpEFF进行变体注释[50]。该研究得出结论,发现这些变异在仅肿瘤全外显子组测序中是可管理的。然而,在当前的研究中,使用GATK调用并通过snpEFF分析的变体显示出具有大量突变,包括SNP、插入缺失和SNV,当进一步过滤时,这些突变用于综合分析和鉴定潜在的标志物。因此,在本发明中,尽管目前的研究结果与以前的研究结果略有不同研究结果就发现的变异数量和使用的数据集数量而言,本研究中使用的方法遵循标准化的流程,并使用最能产生结果的工具。3.3. 突变谱SIFT总结显示,共有70288项变化被归类为可耐受,69051项为有害,10075项为有害低置信度,11628项为可耐受低置信度。还注意到,在ERR166304中出现了归类为缺失和耐受的保守区域的最大修饰(表5)。文献表明,通过SIFT算法预测为有害的氨基酸取代的一部分指向受影响的表型[39]。因此,本研究中获得的数据可用于识别可能的致病候选物。此外,ERR 166304是非BRCA 1/BRCA 2家族性乳腺癌外显子组,因此,获得的结果表明,这种癌症类型可能具有有价值的SNP,可以进一步探索用于检测致病候选者。PolyPhen2的交叉验证显示,发现良性变异,47338例可能有损伤,26925例可能有损伤(表5)。此外,在ERR 166304(非BRCA 1/BRCA 2家族性乳腺癌外显子组)中分别观察到12793个良性变异、4852个可能的和可能的破坏性置换和8678个可能的和可能的破坏性置换,从而证实从SIFT获得的结果。这两种算法给出的结果预测了特定氨基酸取代对蛋白质结构和功能的影响因此,目前的研究结果指向对非BRCA 1/BRCA 2乳腺癌数据集的深入探索和分析。提供了一个图示(补充图S1),显示了样本数据集的整个流水线的输出文件内容。最近的研究报告进行全外显子组测序P. Padmavathi等人医学信息学解锁26(2021)1007628表4在变体识别后,针对20个癌症外显子组数据集鉴定的插入缺失、序列改变、取代、插入、缺失和SNV的数量癌症X染色体组数据集ID插入缺失序列改变取代插入删除SNVERR0354875549234111046316962241816ERR0354894128432041025114900227006电话:+86-10 - 8666666395712140701912740140767联系电话:021 - 8888888666794015756613559156644电话:+86-10 - 8666666475901850673111538132913ERR1663107789713955256820579887ERR1663129191911424552638662898电话:+86-10 - 6663356996410984613674059586电话:+86-10 - 86666668797111264591683660518ERR23225317157225984669666125166ERR23225420136235285009567123145ERR23225517170203178338751108436SRR89445211486745541310414932144844SRR9000992518410853215624176345SRR9001236218021875542416728107632SRR941051332401323511211032137893SRR941052261872628623913919203596SRR9410538807322036366760861SRR941054158293743041233129175161916表5通过SIFT和PolyPhen2程序对突变谱的分析总结,显示了20个癌症外显子组数据集中有害的、耐受的、有害的低置信度、耐受的低置信度、良性的、可能的和可能的破坏性突变的数量。SIFT摘要癌症X染色体组数据集ID有害耐受有害低置信度容许低置信度ERR03548732483624452495ERR03548930503163548717电话:+86-10 - 866666626053018462492联系电话:021 - 8888888132021021114591404电话:+86-10 - 866666646924268754743ERR16631032213531487549ERR16631230683601490572电话:+86-10 - 66633531423020460508电话:+86-10 - 866666636293457510547ERR23225334933152570573ERR23225437073283481656ERR23225530963279428512SRR89445225162852361517SRR90009919512769331470SRR90012329913383483467SRR94105123502796319544SRR94105221662633328525SRR94105325402988508532SRR94105443845260644805总69051702881007511628PolyPhen总结癌症外显子组数据集ID良性可能损坏可能会造成损害未知ERR035487421612162372120ERR035489416112292109137电话:+86-10 - 8666666376110441787104联系电话:021 - 88888881279348528678153电话:+86-10 - 8666666543318183179130ERR16631042361288224880ERR166312429013242087100电话:+86-10 - 66633536761244220685电话:+86-10 - 866666643331277251591ERR232253403613942370105ERR232254414613932578101ERR23225540361184209596SRR8944523554990169999SRR9000993332859132276SRR90012341441195204386SRR9410513452912162399SRR94105232949241390116
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功