GATK-SV结构变异发现管道分析 Illumina短读全基因组测序数据

下载需积分: 48 | ZIP格式 | 15.72MB | 更新于2025-01-01 | 105 浏览量 | 0 下载量 举报
收藏
资源摘要信息:"GATK-SV是用于Illumina短读全基因组测序数据的结构变异(SV)发现工具。它提供了一整套流程,从原始数据的呼叫和证据收集,到质量控制、模型创建、证据合并、基因分型和注释等步骤。GATK-SV可以使用WDL( Workflow Description Language)进行流执行,支持以v36或更高版本的Docker容器运行,并建议在专用服务器上部署。该工具不提供公共Docker映像或参考面板VCF,限制了公开的许可范围。GATK-SV处理的数据格式应为Illumina短读全基因组CRAM或BAM文件,并需要与hg38基因组版本相对应。" ### GATK-SV知识点详解 #### 结构变异发现 结构变异(SV)是指基因组中比单个核苷酸变化大的DNA序列变化,包括插入、删除、倒位、复制数变异(CNV)等。GATK-SV专门针对Illumina短读全基因组测序数据进行SV分析。 #### 测序数据处理流程 1. **原始呼叫者和证据收集**:使用相关工具和算法进行初步的变异检测,并收集证据。 2. **批量质量控制**:对数据集进行质量评估,确保变异呼叫的准确性。 3. **gCNV模型创建**:基于群体数据构建拷贝数变异的高分辨率模型。 4. **批量证据合并,BAF生成和深度调用者**:整合多个样本的信息,生成贝叶斯平均频率(BAF)数据,并利用深度信息进行变异调用。 5. **网站集群**:对特定区域的变异呼叫进行聚类分析。 6. **网站指标**:计算各种统计指标,用于后续的变异评估和过滤。 7. **过滤**:利用各种统计和生物信息学方法去除假阳性变异。 8. **跨批次站点合并**:将不同批次的分析结果整合在一起。 9. **基因分型**:对变异进行分类,确定它们对基因组的可能影响。 10. **基因型优化(可选)**:对基因型进行精细调整。 11. **跨批次集成,复杂事件解决和VCF清理**:处理跨批次的变异,并解决复杂的结构变异事件。 12. **下游过滤**:对变异进行进一步的筛选和优化。 13. **注释**:为检测到的变异添加生物学功能注释。 14. **质量控制和可视化**:对分析结果进行质量控制并提供可视化图表。 #### WDL和Cromwell - **WDL**(Workflow Description Language)是一种用于描述计算工作流程的语言,它能够定义出数据处理流程的每个步骤、输入输出以及依赖关系。 - **Cromwell**是一个可执行WDL工作流程的开源运行时引擎。它能够调度和执行定义在WDL脚本中的任务,并监控整个流程的执行状态。 #### 部署和执行 - **专用服务器**:由于GATK-SV的资源需求较高,建议在专用服务器上部署,以保证足够的计算能力和存储空间。 - **Docker**:由于许可限制,不提供公共的Docker镜像。 - **WGS数据格式**:GATK-SV处理的数据格式包括CRAM和BAM文件,这些是Illumina短读全基因组测序数据的常用格式。 #### 版本和兼容性 - **WDL版本**:GATK-SV支持WDL v36或更高版本。 - **基因组版本**:GATK-SV要求数据文件与hg38基因组版本相对应。 #### 关键技术和概念 - **CRAM/BAM文件**:CRAM和BAM都是存储基因组测序数据的文件格式。BAM为二进制格式,而CRAM为更高效的压缩格式,但需要有参照序列。 - **拷贝数变异(CNV)**:指的是基因组中DNA片段拷贝数的增加或减少。 - **BAF(贝叶斯平均频率)**:用于估计样本中杂合性缺失的统计模型。 - **VCF(Variant Call Format)**:一种用于描述基因组变异的标准文本格式,用于表示突变、SNP、插入/缺失等信息。 #### 特殊组件 - **附加模块-Mosaic和de novo**:该部分提到了GATK-SV可能还包含用于分析镶嵌性变异(Mosaic)和新生突变(de novo)的特定模块。 以上详细介绍了GATK-SV的相关知识点,包括结构变异的定义和重要性、处理流程中的关键步骤、WDL和Cromwell的使用、部署和执行的建议、数据格式要求以及特定技术和概念。这些信息对于理解GATK-SV的工作原理和应用范围至关重要。

相关推荐