GATK-SV结构变异发现管道分析 Illumina短读全基因组测序数据
下载需积分: 48 | ZIP格式 | 15.72MB |
更新于2025-01-01
| 105 浏览量 | 举报
资源摘要信息:"GATK-SV是用于Illumina短读全基因组测序数据的结构变异(SV)发现工具。它提供了一整套流程,从原始数据的呼叫和证据收集,到质量控制、模型创建、证据合并、基因分型和注释等步骤。GATK-SV可以使用WDL( Workflow Description Language)进行流执行,支持以v36或更高版本的Docker容器运行,并建议在专用服务器上部署。该工具不提供公共Docker映像或参考面板VCF,限制了公开的许可范围。GATK-SV处理的数据格式应为Illumina短读全基因组CRAM或BAM文件,并需要与hg38基因组版本相对应。"
### GATK-SV知识点详解
#### 结构变异发现
结构变异(SV)是指基因组中比单个核苷酸变化大的DNA序列变化,包括插入、删除、倒位、复制数变异(CNV)等。GATK-SV专门针对Illumina短读全基因组测序数据进行SV分析。
#### 测序数据处理流程
1. **原始呼叫者和证据收集**:使用相关工具和算法进行初步的变异检测,并收集证据。
2. **批量质量控制**:对数据集进行质量评估,确保变异呼叫的准确性。
3. **gCNV模型创建**:基于群体数据构建拷贝数变异的高分辨率模型。
4. **批量证据合并,BAF生成和深度调用者**:整合多个样本的信息,生成贝叶斯平均频率(BAF)数据,并利用深度信息进行变异调用。
5. **网站集群**:对特定区域的变异呼叫进行聚类分析。
6. **网站指标**:计算各种统计指标,用于后续的变异评估和过滤。
7. **过滤**:利用各种统计和生物信息学方法去除假阳性变异。
8. **跨批次站点合并**:将不同批次的分析结果整合在一起。
9. **基因分型**:对变异进行分类,确定它们对基因组的可能影响。
10. **基因型优化(可选)**:对基因型进行精细调整。
11. **跨批次集成,复杂事件解决和VCF清理**:处理跨批次的变异,并解决复杂的结构变异事件。
12. **下游过滤**:对变异进行进一步的筛选和优化。
13. **注释**:为检测到的变异添加生物学功能注释。
14. **质量控制和可视化**:对分析结果进行质量控制并提供可视化图表。
#### WDL和Cromwell
- **WDL**(Workflow Description Language)是一种用于描述计算工作流程的语言,它能够定义出数据处理流程的每个步骤、输入输出以及依赖关系。
- **Cromwell**是一个可执行WDL工作流程的开源运行时引擎。它能够调度和执行定义在WDL脚本中的任务,并监控整个流程的执行状态。
#### 部署和执行
- **专用服务器**:由于GATK-SV的资源需求较高,建议在专用服务器上部署,以保证足够的计算能力和存储空间。
- **Docker**:由于许可限制,不提供公共的Docker镜像。
- **WGS数据格式**:GATK-SV处理的数据格式包括CRAM和BAM文件,这些是Illumina短读全基因组测序数据的常用格式。
#### 版本和兼容性
- **WDL版本**:GATK-SV支持WDL v36或更高版本。
- **基因组版本**:GATK-SV要求数据文件与hg38基因组版本相对应。
#### 关键技术和概念
- **CRAM/BAM文件**:CRAM和BAM都是存储基因组测序数据的文件格式。BAM为二进制格式,而CRAM为更高效的压缩格式,但需要有参照序列。
- **拷贝数变异(CNV)**:指的是基因组中DNA片段拷贝数的增加或减少。
- **BAF(贝叶斯平均频率)**:用于估计样本中杂合性缺失的统计模型。
- **VCF(Variant Call Format)**:一种用于描述基因组变异的标准文本格式,用于表示突变、SNP、插入/缺失等信息。
#### 特殊组件
- **附加模块-Mosaic和de novo**:该部分提到了GATK-SV可能还包含用于分析镶嵌性变异(Mosaic)和新生突变(de novo)的特定模块。
以上详细介绍了GATK-SV的相关知识点,包括结构变异的定义和重要性、处理流程中的关键步骤、WDL和Cromwell的使用、部署和执行的建议、数据格式要求以及特定技术和概念。这些信息对于理解GATK-SV的工作原理和应用范围至关重要。
相关推荐
862 浏览量
火影耀阳
- 粉丝: 33
- 资源: 4560
最新资源
- p3270:一个用于控制远程IBM主机的python库
- magic-iswbm-com-zh-latest.zip
- deeplearning-js:JavaScript中的深度学习框架
- 易语言控制台时钟源码.zip
- 完整的AXURE原型系列1-6季的全部作品rp源文件
- RC4-Cipher:CSharp中的RC4算法
- 测试
- 威客互动主机管理系统 v1.3.0.5
- metrics-js:一个向Graphite等聚合器提供数据点信息(度量和时间序列)的报告框架
- Kubernetes的声明式连续部署。-Golang开发
- IsEarthStillWarming.com::fire:全球变暖信息和数据
- Ajedrez-开源
- 社区:Rust社区的临时在线聚会。 欢迎所有人! :globe_showing_Americas::rainbow::victory_hand:
- Algo-ScriptML:Scratch的机器学习算法脚本。 机器学习模型和算法的实现只使用NumPy,重点是可访问性。 旨在涵盖从基础到高级的所有内容
- 支持Google的协议缓冲区-Golang开发
- 手写体数字识别界面程序.rar_图片数字识别_手写数字识别_手写识别_模糊识别_识别图片数字