它处理的读取数量也与Flexbar 3.0和Skewer [28]相同,使其成为修剪适
配器的合适工具。 因此,引物、衔接子和聚腺苷酸尾以容错方式定
位,并从所有20个癌症外显子组原始序列读段中剪切。然后将获得的输
出(修剪的fastq文件和日志文件)进一步与参考基因组比对。为了以高
准确度和效率将预处理的读数映射到人参考基因组,对所有癌症外显子
组读数进行空位比对或比对映射。采用Burrows-Wheeler变换(BWT)
与 Smith-Waterman 算 法 组 合 使 用 的 工 具 用 于 缺 口 比 对 。 Burrows-
Wheeler Aligner(BWA)是一种用于将短读段与参考基因组进行比对的
工 具 [29] 。 然 而 , Bowtie2
(https://github.com/BenLangmead/bowtie2)由于结合了动态规划算
法和全文分钟索引,因此具有更高的速度,更好的准确性和灵敏度
[30]。因此,使用BWT算法的Bowtie2用于参照人类基因组hg19和hg38
的空位比对。然后仔细检查以SAM文件格式获得的输出,并在变体调用
之前进行进一步的改变。
2.2.3.
通过
SAM
工具进行对齐细化和转换
为了进一步提高所获得的比对的质量并减少错误的变体调用,通过
几个精炼步骤获得所获得的比对输出。为此,使用了SAMtools(https:
//github.com/samtools)[31]。SAMtools是一种广泛使用的程序,用于
分析从高通量测序获得的数据。它更快,并且具有改进的索引文件的能
力,允许轻松快速地对BAM文件进行排序和写入[32]。因此,在本研究
中,对读段进行分类,重新校准其质量评分,进行indel的重新对齐和读
段的过滤。进行从SAM到BAM格式的转换,然后进行BAM排序 和合
并,因为BAM格式支持比对的快速检索,并且还具有紧凑的大小[31]。
SAM/BAM格式将比对步骤与下游的其他分析分开,从而允许对基因组
序列进行检查的集成方法。
2.3.
变体的处理和调用
为了从测序数据中鉴定突变,进行了处理和变体识别。使用PICARD
进 行 变 体 处 理 , 并 使 用 GATK ( The Genome Analysis Toolkit ,
https://github.com/broadinstitute/gatk)调用变体[33]。使用GATK管
道调用变体被认为是金标准方法,最初于2010年发表[34]。GATK的F分
数是精确度和召回率的调和平均值,为0.978,使其成为一个非常可靠
的工具[34]。此外,已知GATK在测序和实验设计的各种平台上鉴定所有
潜在变体[35],并且在发现外显子组数据集中的真实SNP方面表现非常
好。因此,GATK优于其他体细胞变异体的呼叫者。因此,使用PIC-ARD
进行PCR重复的标记,并且使用GATK进行局部重新比对以及碱基质量的
重新校准,其中在应用适当的参数之后,将来自先前步骤的生成的BAM
文件作为输入。通过PICARD建立BAM指数、SortSam和重新校准基础。
一旦协变量的分析完成,变量就被调用。审查了以VCF文件和HTML报告
形式获得的输出
的 SNPs 和 插入缺失 所以 识别 是 提取 并过滤。
使用snpEFF(http:
:pcingola.github.io/SnpEff/),因为snpEFF是独立于平台工作的开
源工具,快速、准确、具有多生物体兼容性并且灵活[36]。snpEFF
以VCF文件的形式生成输出,这些输出是为所有20个数据集生成的,
并经过仔细检查。
2.4.
变体后处理
为了进一步处理注释后的变体,SNP SIFT(htt
ps:sift.bii.a-star.edu.sg/)[37]。SIFT允许将鉴定的变体分类为
“
有害
的
”
、
“
耐受的
”
、
“
删除的低置信度
“
和
“
耐受的低置信度
“
类别[ 38-
40 ]。使用SIFT原代序列预测编码非同义变体
col(从耐受中分选不耐受),它预测导致癌症外显子组数据中变体形成
的氨基酸取代是否影响蛋白质的功能。使用序列同源性,通过SIFT算法
预测蛋白质序列中每个位置的所有可能取代的影响[41]。 预测评分,基
于 该 评 分 对 变 体 进 行 相 应 分 类 。 使 用 Poly-Phen 2
(https://github.com/hammerlab/vcf-annotate-polyphen)进行交叉验
证[42]。Polyphen2也遵循同样的原则,并将其分类为
被证实的 变体 作为
”“
也许吧 损害
”
,
“
可能造成损害
“
,
“
benign对获得的产出进行了彻底的审查。说明了识别和分析变体所
遵循的流程
图
1.
一、
2.5.
独特
SNP
的鉴定
对来自每个数据集的鉴定和处理的变体进行彻底分析,以发现独特
的SNP。在数据集中仅出现一次的SNP被分类为独特的SNP。对这些功能
及其基因细节进行了鉴定、深入研究,并开发了统计数据。进行独特
SNP的分析以检测和分析可指向特定癌症类型检测的分子标志物的存
在。
2.6.
潜在标志物
为了进一步验证和理解被鉴定为标志物的基因的表达,使用了称为
GEPIA(Gene EX Pression Profiling Interactive Analysis) 已被 录用
[43]。
单基因分析是通过提供“符号”来进行的
基因基因的分析以box图的形式进行,并仔细检查其完整的表达谱。为
了从GEPIA获得BOX 图,|Log
2
FC|截止值保持在1,p值截止值保持在
0.01,抖动大小保持在0.4。选择数据库中所有可用的癌症数据集以获得
表达谱,以与正常组织进行比较。对表达数据进行转换以进行差异分
析,并获得log 2FC值作为中位数(肿瘤)-中位数(正常)[43]。 此
外,人蛋白质图谱(HPA)
[44]对潜在的标志物进行了检测,并检查了各种癌症类型的差异表达。
还进行了鉴定的分子标记物之间的比较表达分析,以揭示标记物最主要
表达的潜在癌症类型。对取得的成果进行了陈述和说明。
3.
结果和讨论
3.1.
原始数据预处理
对成功检索的原始数据进行预处理,获得了更好的数据质量
3.1.1.
FastQC
和
MultiQC
质量检查
FastQC结果显示,在20个癌症外显子组数据集中,发现其中16个具
有非常好的质量。他们的 NCBI SRA ID为SRR941052、SRR941053、
SRR941054、ERR166307、ERR166310、ERR166312、ERR166335、
ERR232255 、 ERR232254 、 ERR232253 , ERR035489 ,
ERR035488, ERR035487, ERR166336,
ERR166303和SRR941051。此外,具有合理质量的数据集 电话 是
SRR900123, SRR900099, ERR166304, 和