UMItools：高效处理高通量测序数据的Python工具

需积分: 49 133 浏览量更新于2025-01-03 1 收藏 17.94MB ZIP 举报

资源摘要信息:"umitools是为处理带有唯一分子标识符（UMI）的测序数据而设计的一套工具集，可以有效地用于生物学研究中的基因表达分析和变异检测等。UMI是小片段的核酸序列，可以用来标记每个原始的DNA或RNA分子，用于消除PCR扩增过程中产生的重复分子带来的误差，进而提高测序数据的准确性和可信度。安装umitools非常简单，用户需要具备Python 3环境。通过pip安装命令，用户可以轻松地将umitools安装到系统或个人目录中。以下是安装命令的格式： ``` pip3 install umitools # 如果你希望安装到个人目录，可以添加 --user 参数。 ``` 使用umitools处理UMI小RNA序列数据的流程大致可以分为以下几步： 1. 下载测试数据（如果已有数据，可跳过此步骤）。可以使用wget命令从指定的GitHub地址下载压缩的测试数据文件。命令如下： ``` wget -O clipped.fq.gz "https://github.com/weng-lab/umitools/raw/master/umitools/testdata/umitools.test.sRNA-seq.fq.gz" ``` 2. 识别并处理UMI：通过umitools提供的命令行工具 `reformat_sra_fastq` 来识别和处理UMI。该工具会读取输入的测序数据文件（通常为FASTQ格式），从中提取UMI序列，并将处理后的数据输出。具体操作如下： ``` umitools reformat_sra_fastq -i clipped.fq.gz -o sra.umi.fq -d sra.dup.fq ``` 这里的 `-i` 参数用于指定输入的FASTQ文件名，`-o` 参数用于指定输出文件名，其中包含UMI信息，而 `-d` 参数用于指定输出文件名，其中包含去除重复的UMI后的数据。该工具集在处理数据时，会根据UMI序列将原始序列进行分组，对于具有相同UMI的序列进行标记，从而在后续的数据处理和分析中帮助研究人员区分和排除PCR扩增产生的重复序列，准确计算原始分子的数量，提高数据质量。 umitools工具集的开发与维护，充分体现了生物信息学中对高通量测序数据处理的需求和追求。它对生物学研究，尤其是小RNA测序分析和单细胞RNA测序等领域具有重要的意义。本工具集的标签集合包括：bioinformatics（生物信息学）、rna-seq（RNA测序）、umi（唯一分子标识符）、high-throughput-sequencing（高通量测序）以及small-rna（小RNA），这些标签高度概括了本工具集的应用范围和专业领域。至于压缩包子文件的文件名称列表中的 'umitools-master'，这很可能是一个包含umitools工具集源代码的压缩文件，它可能用于分发或开发者直接从源代码编译安装工具集。"

资源目录

收起资源包目录

UMItools：高效处理高通量测序数据的Python工具（44个子文件）

umi_simulator.py 15KB

umitools.test.RNA-seq.sorted.bam.stats 420B

TODO 141B

umitools.test.fmt.x_rRNA.mm10g.deumi.ok 0B

umi.py 9KB

umitools.test.fmt.x_rRNA.mm10g.sorted.bam 1.06MB

umitools.test.fmt.x_rRNA.mm10g.picard_dup_marked.metric 1KB

umitools.test.fmt.x_rRNA.mm10g.deumi.sorted.bam.bai 1.39MB

umi_loci_with_duplicates.py 7KB

reformat_umi_fastq.py 11KB

umitools.test.fmt.x_rRNA.mm10g.F400.sorted.bam 1.06MB

est_err.py 5KB

jobs.2237110868.sh 142B

umitools.test.fmt.x_rRNA.mm10g.deumi.sorted.bam 1.06MB

umitools.test.fmt.x_rRNA.mm10g.count.ok 0B

umitools.test.fmt.x_rRNA.mm10g.picard.F400.bam 1.07MB

setup.ctg 0B

umitools.test.fmt.x_rRNA.mm10g.picard_dup_marked.bam 1.09MB

find_hot_loci.py 5KB

.deumi.log 3KB

umitools.test.RNA-seq.log 1KB

umitools.test.error_in_sra_umi_locator.fq.gz 208B

umi_graph.py 3KB

umitools.test.fmt.x_rRNA.mm10g.f400.sorted.bam 3KB

setup.py 3KB

umitools.test.RNA-seq.sorted.bam 10.14MB

umitools.test.sRNA-seq.log 557B

umitools.test.fmt.x_rRNA.mm10g.picard.ok 0B

umitools.test.RNA-seq.r1.fq.gz 448KB

umitools.test.fmt.x_rRNA.mm10g.sorted.bam 1.06MB

mark_dup.sh 2KB

.gitignore 140B

umitools.test.RNA-seq.r2.fq.gz 471KB

umitools.py 2KB

umi_mark_duplicates.py 10KB

umitools.test.fmt.x_rRNA.mm10g.picard_dup_marked.log 3KB

__init__.py 0B

umitools.test.fmt.x_rRNA.mm10g.sorted.bam.bai 1.39MB

README.rst 0B

README.md 5KB

umitools.test.sRNA-seq.fq.gz 324KB

README.md 563B

LICENSE.txt 717B

reformat_umi_sra_fastq.py 13KB

共 44 条

杜佳加

粉丝: 47
资源: 4625

UMItools：高效处理高通量测序数据的Python工具

UMI-tools:用于处理NGS数据集中的唯一分子标识符的工具

UMI-analysis:用于处理包含唯一分子标识符（UMI）的Illumina序列数据的脚本

UMICollapse：使用唯一分子标识符（UMI）加速读取的重复数据删除和折叠过程。 经过高度优化，可扩展性比以前的工具快几个数量级

umi-tools hisat2

umi4.1复制工具下载

控制台出现[HMR] css reload http://localhost:8000/umi.css是什么问题

乌班图 怎么安装 umi 工具

umi微狗初始化工具

使用umi框架初始化选择的umi@4如何换为umi@3

npm启动umi命令

最新资源

UMICollapse：使用唯一分子标识符（UMI）加速读取的重复数据删除和折叠过程。经过高度优化，可扩展性比以前的工具快几个数量级

乌班图怎么安装 umi 工具