利用filter_probes工具过滤Illumina HT-12 v4探针识别HapMap CEU SNP
需积分: 10 65 浏览量
更新于2024-10-30
收藏 14.69MB ZIP 举报
资源摘要信息:"filter_probes:过滤 Illumina HT-12 v4 探针以确定 HapMap CEU SNP 的存在"
在生物信息学和基因组学研究中,基因表达微阵列是一种常用的技术,用于同时检测成千上万个基因的表达水平。Illumina HT-12 v4 是一款常用的基因表达微阵列芯片,它通过一组特定的探针来识别和量化样本中的RNA分子。然而,单核苷酸多态性(SNP)的存在可能会影响这些探针的杂交效率,进而影响基因表达数据的准确性。因此,筛选出那些受SNP影响较小的探针对于准确测量基因表达水平至关重要。
本项目提供了一个名为filter_probes的工具,用于过滤Illumina HT-12 v4探针,以确定特定人群(如HapMap CEU群体,即来自北欧的犹他州居民)中的SNP。CEU是国际人类基因组多样性计划(HapMap Project)的一个重要群体,用于研究人类遗传多样性。
在使用filter_probes之前,用户需要先克隆该工具的GitHub仓库。该工具使用Snakemake工作流管理器来执行。Snakemake是一个用于创建可重复和可扩展的生物信息学数据分析流程的工具。用户可以通过命令行调用特定参数来运行工作流。
具体操作步骤如下:
1. 克隆GitHub仓库到本地系统:
```***
***:jdblischak/filter_probes.git
```
2. 进入克隆好的filter_probes目录:
```bash
cd filter_probes
```
3. 按照顺序运行工作流:
```bash
snakemake -s make.py
```
若要并行运行,提高工作效率,可以使用-c和-j选项将作业提交到网格计算系统。-c选项用于指定提交作业的命令,而-j选项用于指定同时运行的最大作业数。这里的具体命令取决于用户所使用的网格计算系统。例如,如果用户使用的是Grid Engine,可以参考如下命令:
```bash
snakemake -s make.py -j 30 -c "qsub -l h_vmem={params.h_vmem} -N {params.name} -V -j y -cwd -o {log}"
```
在该示例中,用户可以指定最多同时运行30个作业,每个作业会请求一定的虚拟内存(h_vmem)并以特定的名称(name)提交给Grid Engine。参数-j y确保作业的错误输出会被记录。-cwd选项确保作业在提交命令的工作目录下执行,而-o选项用于指定日志文件的输出位置。
本项目的Python标签表明,它是一个主要使用Python编程语言开发的工具。Python在生物信息学领域内广泛用于数据分析和自动化工作流程,特别是在处理各种生物信息学文件格式和运行复杂的算法方面。
综上所述,filter_probes项目的核心是提供一个自动化流程,用于筛选那些在HapMap CEU群体中检测到SNP的Illumina HT-12 v4探针。这对于后续的基因表达分析至关重要,可以减少由SNP引起的噪音,从而提高数据分析的准确性和可靠性。用户可以通过简单的命令行操作来运行和配置该工具,使其适应不同的计算环境。
104 浏览量
164 浏览量
2021-02-04 上传
1224 浏览量
2021-03-17 上传
502 浏览量
349 浏览量
2021-05-26 上传
276 浏览量