利用snappymeth分析全基因组亚硫酸氢盐测序数据揭示ASM

需积分: 12 0 下载量 10 浏览量 更新于2024-11-07 1 收藏 147KB ZIP 举报
资源摘要信息:"snappymeth.py是一个专门为Python 2.7环境开发的程序,用于分析全基因组亚硫酸氢盐测序(WGBS)数据,目的是识别CpG位点和小区域内的等位基因特异性甲基化(ASM)。等位基因特异性甲基化是指在基因组中,来自不同父母的等位基因在甲基化状态上表现出差异的现象。snappymeth.py通过两种主要的方法来实现这一目标: 1. 利用杂合SNP进行读取分离:程序使用提供的VCF文件中的杂合单核苷酸多态性(SNP)信息,将对应于每个等位基因的测序读取进行分离。VCF(Variant Call Format)文件是一种标准格式,用于存储基因组变异数据,包括SNP、插入和缺失(indels)等信息。在分析中,程序会识别与SNP相关联的等位基因特定的读取,并且这些读取能够用于后续的甲基化分析。 2. 利用中间甲基化的CpG位点进行读取分离:当没有可用的杂合SNP时,程序使用具有中间甲基化水平的CpG位点作为替代的“伪杂合SNP”。这些位点通常表现为两组不同的甲基化模式,代表两个不同的等位基因。 在获得每个等位基因的读取计数后,程序会在每个SNP周围的CpG位点上对序列化的甲基化和未甲基化碱基进行计数,并计算费舍尔精确检验(Fisher's exact test)的p值(双尾)。这个统计检验用于评估样本比例之间的差异是否具有统计学意义。如果在某个CpG位点观察到足够的 CpG 位点数量,程序将进行区域分析,即将所有覆盖的 CpG 位点上的每个等位基因计数进行累加。 在分析过程中,用户可以选择将满足特定p值阈值条件的区域的每个等位基因读数导出为单独的BAM文件。BAM(Binary Alignment/Map)文件格式是一种用于存储高通量测序数据的二进制文件格式,它包含了测序读取的比对信息。此外,程序还可以自动生成这些读数的IGV(Integrative Genomics Viewer)屏幕截图,IGV是一个用于交互式可视化基因组数据的工具,包括DNA、RNA和变异数据。 snappymeth.py的输入数据是已经对齐的BAM文件,这表示输入数据必须经过质量控制、比对到参考基因组,以及去重等一系列预处理步骤。程序的输出文件将包括等位基因特异性的甲基化状态信息、统计检验的结果以及可选的BAM和IGV屏幕截图。 此外,snappymeth.py提供了灵活的参数设置,允许用户根据实验设计和数据分析需求进行调整。例如,用户可以设置p值的临界值,定义输出结果的详细程度,以及选择是否导出特定区域的BAM和IGV文件。 需要注意的是,snappymeth.py项目被保存在名为'snappymeth-master'的压缩包文件中,表明这是一个需要从主干代码库(master branch)下载的软件项目。由于该程序仅在Python 2.7上测试过,因此在使用前应确保环境兼容此特定版本的Python解释器。"