没有合适的资源?快使用搜索试试~ 我知道了~
首页GATK使用方法详细介绍
GATK使用方法详细介绍
5星 · 超过95%的资源 需积分: 49 70 下载量 110 浏览量
更新于2023-03-16
评论 8
收藏 254KB DOCX 举报
GATK软件使用方法详细描述,好的资源不容错过!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
资源详情
资源评论
资源推荐
原创】GATK 使用方法详解(包含 bwa 使用)第一部分
(2014-03-03 11:07:29)
转 载 ▼
标签:
gatk
bwa
snp
indel
分类:生物信息
由于新浪博客规定,每篇文章不可超过 2 万字符,因此分 4 篇发布。
一、使用 GATK 前须知事项:
()对 的测试主要使用的是人类全基因组和外显子组的测序数据,而且全部是
基于 数据格式,目前还没有提供其他格式文件(如 )或者实验
设计()的分析方法。
() 是一个应用于前沿科学研究的软件,不断在更新和修正,因此,在使用
进行变异检测时,最好是下载最新的版本,目前的版本是 (
)。下载网站: !!!"#$% %& #!#。
(')在 使用过程中(见下面图),有些步骤需要用到已知变异信息,对于这些
已知变异, 只提供了人类的已知变异信息,可以在 的 () 站点下载
($*"#)。如果要研究的不是人类基因组,需要自行构建已知变
异, 提供了详细的构建方法。
() 在进行 +, 和 -, 的过程中会使用到 软件绘制一些图,因此,在运
行 之前最好先检查一下是否正确安装了 和所需要的包,所需要的包大概
包括
%%、%$、"$、*$、*$*、%#、%$"、$、.+
! 等。如果画图时出现错误,会提示需要安装的包的名称。
/
二、GATK 的使用流程
GATK 最佳使用方案:共 ' 大步骤。原始数据的处理—变异检测—初步分析。
第一大步:原始数据的处理
1.对原始下机 fastq 文件进行过滤和比对(mapping)
对于 下机数据推荐使用 "! 进行 %。
/
+! 比对步骤大致如下:
(1)对参考基因组构建索引:
////例子:"!#0"!$!%12。最后生成文件:
%12"、%12、%12"!、%12* 和 %12$。
////构建索引时需要注意的问题:"! 构建索引有两种算法,两种算法都是基于 +3 的,
这两种算法通过参数$和"!$! 进行选择。其中"!$! 对于短的参考序列是不工
作的,必须要大于等于 4";$ 是默认参数,这个参数不适用于大的参考序列,必
须要小于等于 。
(2)寻找输入 reads 文件的 SA 坐标。
////对于 # 数据,每个 #$ 文件单独做运算,$%# 数据就不用说了,只有一
个文件。
////例子:pair end:
"!////%12//#2%5//'//&//////6#2%5$
"!////%12//#2%5//'//&//////6#2%5$
single end:
"!////%12//#2%5//'//&//////6#2%5$
主要参数说明:
:允许出现的最大 % 数。
:每个 % 允许的最大长度。
#:不允许在 '7端出现大于多少 " 的 #。
:不允许在 #$ 两端出现大于多少 " 的 #。
:# 前多少个碱基作为 $#,如果设置的 $# 大于 # 长度,将无
法继续,最
好设置在 ',与&配合使用。
&:在 $# 中的最大编辑距离,使用默认 ,与 配合使用。
:要使用的线程数。
:此参数只应用于 # 中,当没有出现大于此值的最佳比对结果
时,将会降低标
准再次进行比对。增加这个值可以提高配对比对的准确率,但是同
时会消耗更长的
时间,默认是 '。
:表示输入的文件格式为 '8数据格式。
+:设置标记序列。从 7端开始多少个碱基作为标记序列,当+ 为正值
时,在比对之
前会将每个 # 的标记序列剪切,并将此标记序列表示在 +.
4标签里,对于
# 数据,两端的标记序列会被连接。
":指定输入格式为 " 格式。"!////%12//#"//6#2%5$
/
(3)生成 sam 格式的比对文件。如果一条 read 比对到多个位置,会随机选择一种。
////例子:single end:"!//$$//%12//#2%5$//#2%5//6#2%5$
//////////参数::如果 #$ 比对次数超过多少次,就不在 9 标签显示。
/////////////////$:定义头文件。‘:;<2;4"7,如果在此步骤不进行头文件定
义,在
后续 分析中还是需要重新增加头文件。
pair end:"!$#2%5$#2%5$#2%5#2%56
#$
//////////参数::最大插入片段大小。
/////////////////:# 两 #$ 中其中之一所允许配对的最大次数,超过该次数,将
被视为
$%#。降低这个参数,可以加快运算速度,对于少于
'" 的 #,建
议降低 值。
/////////////////$:定义头文件。同 $%#。
/////////////////:每对 #$ 输出到结果中的最多比对数。
/
对于最后得到的 $ 文件,将比对上的结果提取出来(awk 即可处理),即可直接用
于 的分析。
注意:由于 在下游的 $*% 时,是按染色体进行 *$ 的。因此,在准备
原始 $ 文件时,可以先按染色体将文件分开,这样会提高运行速度。但是当数据量
不足时,可能会影响后续的 -, 分析,这是需要注意的。
/
2.对 sam 文件进行进行重新排序(reorder)
由 +3 生成的 $ 文件时按字典式排序法进行的排序(0*%*=)进行排序的
(*,*>*1,*,*>*,*,*'>*4,*9,*?),但
是 在进行 *$ 的时候是按照染色体组型(&==*)进行的
(*4,*,*>*,*9,*?),因此要对原始 $ 文件进行 #。可
以使用 *#$ 中的 # 完成。
%.
@A@*#$1B #@
C%1$
DC%1#E$
F(FF.FC%12
/
注意:
这一步的头文件可以人工加上,同时要确保头文件中有的序号在下面序列中也有对
应的。虽然在 网站上的说明 *4 可以在最前也可以在最后,但是当把 *4
放在最后时可能会出错。
在进行排序之前,要先构建参考序列的索引。
%$$2#0%12。最后生成的索引文件:%122。
3. 如果在上一步想把大文件切分成小文件的时候,头文件可以自己手工加上,之后运
行这一步就好了。
/
3.将 sam 文件转换成 bam 文件(bam 是二进制文件,运算速度快)
这一步可使用 $$A! 完成。
%$$A!"%1#E$%1$E"
/
4.对 bam 文件进行 sort 排序处理
这一步是将 $ 文件中同一染色体对应的条目按照坐标顺序从小到大进行排序。可以
使用 *#$ 中 完成。
%
@A@*#$1B @
)GC%1$E"
DG)GC%1$$E"
DED<FC*#
/
5.对 bam 文件进行加头(head)处理
以上版本将不再支持无头文件的变异检测。加头这一步可以在 +3 比对的
时候进行,通过 参数的选择可以完成。如果在 +3 比对期间没有选择 参数,可以
增加这一步骤。可使用 *#$ 中 ##D*#$ 完成。
%
@A@*#$1B ##D*#$@
C%1$$E"
DC%1#$###E'"
<C%1<
H+C%1<
)HC
)GC%1)G
4C%1
<$:输入 #$ 集 < 号;H+:# 集文库名;)H:测序平台( 或 $#);
)G:测序平台下级单位名称( 的名称);4:样本名称。
注意:这一步尽量不要手动加头,本人尝试过多次手工加头,虽然看起来与软件加的
头是一样的,但是程序却无法运行。
/
6.Merge
如果一个样本分为多个 进行测序,那么在进行下一步之前可以将每个 的 "
文件合并。
%
@A@/*#$I 4%($@
)GC"
)GC"
)GC'"
剩余21页未读,继续阅读
rogerzhanglijie
- 粉丝: 305
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论5