TagDust2：用于NGS序列标记与筛选的开源工具

需积分: 5 33 浏览量更新于2024-11-01 收藏 15.39MB GZ 举报

资源摘要信息:"TagDust是一个开源软件工具，专门用于处理下一代测序（NGS）机器产生的原始序列数据。该软件的主要功能是识别和提取原始序列中包含的各种辅助序列，如适配器（adapters）、链接器（linkers）、条形码（barcodes）和指纹序列（fingerprints）。这些序列通常用于实验中的样本识别和操作控制。由于原始测序数据中往往包含噪声和非目标序列，TagDust通过其算法能够清理并正确标记那些需要在后续生物信息学分析中使用的序列。 TagDust2是该软件的一个版本，它为用户提供了指定读取预期序列结构的能力，并将这些信息转换为隐马尔可夫模型（Hidden Markov Model, HMM）。隐马尔可夫模型是一种统计模型，能够有效处理序列数据，并用于预测序列的最可能状态序列。在TagDust2的上下文中，这意味着软件能够将包含测序错误的序列正确地分配给对应的条形码或索引。处理NGS数据时，区分和识别条形码非常重要，因为它们允许研究人员区分不同样本或实验组。TagDust通过其算法能够处理序列的匹配问题，即使在序列质量不佳的情况下也能准确地将序列与特定的条形码关联起来。这样，可以确保数据的准确性，减少错误的样本归属，从而提高实验结果的可靠性。除了上述功能，TagDust还能够自动识别并丢弃与预期结构不匹配的序列。这些不匹配的序列可能是由引物二聚体、污染物或其他无关的DNA片段组成。通过自动过滤这些序列，TagDust有助于清理数据，减少后续分析步骤中可能出现的错误。 TagDust的使用场景不仅限于生物信息学分析，它在基因组学、转录组学和分子生物学的众多研究领域内都是一种实用的工具。由于其开源性质，科研人员可以自由地使用、修改和分发该软件，这为实验设计和数据处理带来了极大的便利。同时，开源社区的存在使得研究人员可以共同改进工具，并共享定制的解决方案。 TagDust的版本2.33，如提供的文件名所示，代表了该软件的一个特定版本，这个版本可能包含一些特定的更新或改进。例如，新版本可能引入了算法优化，提高了处理速度，增强了错误容忍能力，或增加了新的功能，以适应不断变化的NGS数据处理需求。研究人员在使用特定版本时，应查阅相应的文档了解详细信息，以确保正确安装和运行软件，以及理解其特定的更新内容。 TagDust作为开源项目，通常会提供源代码下载，允许用户自行编译安装，或根据需求进行修改和扩展。开源社区的支持和贡献是该软件得以持续发展和完善的关键。用户可以通过官方仓库或其他代码托管平台找到TagDust的源代码，然后在自己的计算环境中构建和运行它。总结来说，TagDust是一个强大的工具，对于处理NGS数据尤其有用。它能够识别和提取重要的辅助序列，过滤掉无关的序列，并为下游分析准备干净的数据集。其开源性质使得该软件能够被广泛地应用和改进，从而满足生物信息学领域不断增长的需求。"

收起资源包目录

TagDust-开源（92个子文件）

README.txt 3KB

Readme.txt 211B

README 674B

run_benchmark.md 52KB

Makefile.am 1KB

EDITTAG_4nt_ed_2.txt 671B

Makefile.am 945B

bar_read_test.sh 7KB

EDITTAG_3nt_ed_1.txt 640B

test-driver 5KB

casava_out_BC_TTAGGC_READ1_gold.txt 339KB

Makefile.am 508B

User-Manual.pdf 262KB

missing 7KB

Makefile.in 15KB

simulate_reads.c 11KB

UsingTagDustwithCASA.pdf 109KB

run_benchmark.pdf 601KB

read_paired_tagdust_results_gold.txt 138B

EDITTAG_6nt_ed_3.txt 1KB

configure 201KB

sim.h 1KB

Makefile.in 11KB

Makefile.in 12KB

autogen.sh 188B

NEWS 0B

Makefile.am 424B

fastx_barcode_splitter.pl 14KB

interface.c 25KB

casava_arch.txt 50B

RNAseqPipeLine.pdf 273KB

io.h 4KB

EDITTAG_4nt_ed_3.txt 110B

barread1_tagdust_results_gold.txt 139B

casava_test.sh 1KB

nuc_code.h 1KB

casava_read2.fastq.gz 861KB

depcomp 23KB

COPYING 34KB

Makefile.in 24KB

cutadapt 134B

rnaseq_pipeline_4tagdust_paper-0.8.tar.gz 200KB

sanity_test.sh 875B

Makefile.am 66B

Makefile.in 143KB

calibrateQ.c 6KB

merge.c 16KB

compile 7KB

casava_out_BC_TTAGGC_READ2_gold.txt 339KB

EDITTAG_6nt_ed_4.txt 260B

casava_read3.fastq.gz 6.5MB

nuc_code.c 2KB

io.c 66KB

tagdust2.h 2KB

Makefile.in 18KB

barcode_hmm.c 183KB

main.c 6KB

template_modern.tex 5KB

aclocal.m4 41KB

Makefile.am 682B

mdlp.md 16KB

Makefile.am 229B

Makefile.in 17KB

INSTALL 15KB

casava_read1.fastq.gz 6.22MB

ChangeLog 1KB

configure.ac 3KB

RNAseqPipeLine.html 42KB

rename_illumina_demultiplexed_for_qiime.c 7KB

style.css 3KB

AUTHORS 65B

barread_paired_tagdust_results_gold.txt 139B

casava_6nt_arch.txt 114B

kslib.h 3KB

barread2_tagdust_results_gold.txt 139B

btrim64 35KB

misc.c 18KB

Makefile.am 2KB

install-sh 14KB

Makefile.am 75B

evalresults.c 8KB

Makefile.in 11KB

ostart.c 13KB

EDITTAG_3nt_ed_2.txt 160B

config.h.in 3KB

kslib.c 1KB

test_architectures.c 9KB

run_benchmark.html 109KB

interface.h 5KB

misc.h 3KB

barcode_hmm.h 12KB

共 92 条

刘怒威

粉丝: 29
资源: 4649

TagDust2：用于NGS序列标记与筛选的开源工具

基于java的开发源码-开源LDAP浏览器 JXplorer.zip

NASM汇编编译器--开源

RM2020-上海交大-步兵机器人-开源资料.zip

hybrid-tools:免费和开源的 A/V 工具-开源

noc-开源：批量服务器监控脚本发布

***-开源错误跟踪器项目分享

VB到Python自动转换工具开发-开源VB2PY项目

Oberon PLM-开源：基于Web的PLM/PDM解决方案

Autodesk AutoCAD与.Net的互操作开发 - 开源解决方案

OpenPLC---一款开源的全功能PLC项目，所有软件硬件资料全开，支持5种PLC编程语言

最新资源