GATK使用方法详细介绍_gatk安装,gatk

GATK

5星 · 超过95%的资源需积分: 49 110 浏览量更新于2023-03-16 评论 8 收藏 254KB DOCX 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

原创】GATK 使用方法详解（包含 bwa 使用）第一部分

 (2014-03-03 11:07:29)

转载 ▼

标签：

gatk



bwa



snp



indel

分类：生物信息

由于新浪博客规定，每篇文章不可超过 2 万字符，因此分 4 篇发布。

一、使用 GATK 前须知事项：

（）对  的测试主要使用的是人类全基因组和外显子组的测序数据，而且全部是

基于  数据格式，目前还没有提供其他格式文件（如 ）或者实验

设计（）的分析方法。

（） 是一个应用于前沿科学研究的软件，不断在更新和修正，因此，在使用

 进行变异检测时，最好是下载最新的版本，目前的版本是 （

）。下载网站： !!!"#$% %& #!#。

（'）在  使用过程中（见下面图），有些步骤需要用到已知变异信息，对于这些

已知变异， 只提供了人类的已知变异信息，可以在  的 () 站点下载

（$*"#）。如果要研究的不是人类基因组，需要自行构建已知变

异， 提供了详细的构建方法。

（） 在进行 +, 和 -, 的过程中会使用到  软件绘制一些图，因此，在运

行  之前最好先检查一下是否正确安装了  和所需要的包，所需要的包大概

包括

%%、%$、"$、*$、*$*、%#、%$"、$、.+

! 等。如果画图时出现错误，会提示需要安装的包的名称。

二、GATK 的使用流程

single end：

"!////%12//#2%5//'//&//////6#2%5$

主要参数说明：

：允许出现的最大 % 数。

：每个 % 允许的最大长度。

#：不允许在 '7端出现大于多少 " 的 #。

：不允许在 #$ 两端出现大于多少 " 的 #。

：# 前多少个碱基作为 $#，如果设置的 $# 大于 # 长度，将无

法继续，最

好设置在 '，与&配合使用。

&：在 $# 中的最大编辑距离，使用默认 ，与 配合使用。

：要使用的线程数。

：此参数只应用于 # 中，当没有出现大于此值的最佳比对结果

时，将会降低标

准再次进行比对。增加这个值可以提高配对比对的准确率，但是同

时会消耗更长的

时间，默认是 '。

：表示输入的文件格式为 '8数据格式。

+：设置标记序列。从 7端开始多少个碱基作为标记序列，当+ 为正值

时，在比对之

前会将每个 # 的标记序列剪切，并将此标记序列表示在 +.

4标签里，对于

# 数据，两端的标记序列会被连接。

"：指定输入格式为 " 格式。"!////%12//#"//6#2%5$

（3）生成 sam 格式的比对文件。如果一条 read 比对到多个位置，会随机选择一种。

////例子：single end："!//$$//%12//#2%5$//#2%5//6#2%5$

//////////参数：：如果 #$ 比对次数超过多少次，就不在 9 标签显示。

/////////////////$：定义头文件。‘:;<2;4"7，如果在此步骤不进行头文件定

义，在

后续  分析中还是需要重新增加头文件。

pair end："!$#2%5$#2%5$#2%5#2%56

#$

//////////参数：：最大插入片段大小。

/////////////////：# 两 #$ 中其中之一所允许配对的最大次数，超过该次数，将

被视为

$%#。降低这个参数，可以加快运算速度，对于少于

'" 的 #，建

议降低 值。

/////////////////$：定义头文件。同 $%#。

/////////////////：每对 #$ 输出到结果中的最多比对数。

对于最后得到的 $ 文件，将比对上的结果提取出来（awk 即可处理），即可直接用

于  的分析。

注意：由于  在下游的 $*% 时，是按染色体进行 *$ 的。因此，在准备

原始 $ 文件时，可以先按染色体将文件分开，这样会提高运行速度。但是当数据量

不足时，可能会影响后续的 -, 分析，这是需要注意的。

2.对 sam 文件进行进行重新排序（reorder）

由 +3 生成的 $ 文件时按字典式排序法进行的排序（0*%*=）进行排序的

（*，*>*1，*，*>*，*，*'>*4，*9，*?），但

是  在进行 *$ 的时候是按照染色体组型（&==*）进行的

（*4，*，*>*，*9，*?），因此要对原始 $ 文件进行 #。可

以使用 *#$ 中的 # 完成。

%．

@A@*#$1B #@

C%1$

DC%1#E$

F(FF.FC%12

注意：

这一步的头文件可以人工加上，同时要确保头文件中有的序号在下面序列中也有对

应的。虽然在  网站上的说明 *4 可以在最前也可以在最后，但是当把 *4

放在最后时可能会出错。

在进行排序之前，要先构建参考序列的索引。

%$$2#0%12。最后生成的索引文件：%122。

3. 如果在上一步想把大文件切分成小文件的时候，头文件可以自己手工加上，之后运

行这一步就好了。



3.将 sam 文件转换成 bam 文件（bam 是二进制文件，运算速度快）

这一步可使用 $$A! 完成。

%$$A!"%1#E$%1$E"

4.对 bam 文件进行 sort 排序处理

这一步是将 $ 文件中同一染色体对应的条目按照坐标顺序从小到大进行排序。可以

使用 *#$ 中  完成。

%

@A@*#$1B @

)GC%1$E"

DG)GC%1$$E"

DED<FC*#

5.对 bam 文件进行加头（head）处理

 以上版本将不再支持无头文件的变异检测。加头这一步可以在 +3 比对的

时候进行，通过 参数的选择可以完成。如果在 +3 比对期间没有选择 参数，可以

增加这一步骤。可使用 *#$ 中 ##D*#$ 完成。

%

@A@*#$1B ##D*#$@

C%1$$E"

DC%1#$###E'"

<C%1<

H+C%1<

)HC

)GC%1)G

4C%1

<$：输入 #$ 集 < 号；H+：# 集文库名；)H：测序平台（ 或 $#）；

)G：测序平台下级单位名称（ 的名称）；4：样本名称。

注意：这一步尽量不要手动加头，本人尝试过多次手工加头，虽然看起来与软件加的

头是一样的，但是程序却无法运行。

6.Merge

如果一个样本分为多个  进行测序，那么在进行下一步之前可以将每个  的 "

文件合并。

%

@A@/*#$I 4%($@

)GC"

)GC"

)GC'"

剩余21页未读，继续阅读

glowlaw

2023-07-26

作者在介绍GATK使用方法时，提供了很多实例，非常实用。

rogerzhanglijie

粉丝: 305
资源: 2

会员权益专享

GATK使用方法详细介绍

评论5

会员权益专享

最新资源

GATK使用方法详细介绍

评论5

GATK HaplotypeCaller SNP Calling 自动化流程

gvcf-call:从gVCF文件调用变体

gatk-sv

gatk寻找体细胞突变原理

spark gatk

conda安装GATK4.5

GATK合并gvcf文件

哪里可以直接下载gatk gvcf数据

gatk mutect2 检测流程

GATK中DBImport模块原理

.pl文件怎么执行_你的GATK haplotypecaller是怎么工作的？

运行gatk时出现 A JNI error has occurred, please check your installation and try again

收集肿瘤突变负荷的预测方法，并预测通过转录组评估肿瘤突变负荷的可能性

gatk GenotypeGVCFs -R ref.fa -V chrx.merged.g.vcf.gz -O chrx.genotype.vcf.gz各个参数的意义，并举例

#2 gvcf文件按染色体合并 ls chrx.g.vcf.gz > chrx_gvcf.list gatk CombineGVCFs -R ref.fa -V chrx_gvcf.list -L X(染色体号) -O chrx.merged.g.vcf.gz 其中染色体号取什么值，请举例

如何去除bam 文件中的pcr 重复

已经注释过的基因组序列的unanchor碎片用什么方法去除

如筛选选一些SNP位点作为家系育种标记

二代测序数据处理数据质量控制

会员权益专享

最新资源