Seq Crumbs：面向序列处理的Python实用工具集合

需积分: 9 151 浏览量更新于2024-11-01 收藏 2.15MB ZIP 举报

资源摘要信息:"Seq Crumbs 是一个旨在成为小型序列处理实用程序集合的工具，它模仿了Unix命令行文本处理实用程序的设计理念。Seq Crumbs 中的每个程序都专注于执行特定的任务，大多数程序接受一个序列文件作为输入，并生成一个新的处理过的序列文件作为输出。这种设计哲学鼓励使用Unix管道来链接多个Seq Crumbs实用程序的操作，从而实现更加高效和强大的序列数据处理流程。Seq Crumbs 的功能包括但不限于以下几点： 1. sff_extract：这个实用程序可以从454测序平台和Ion Torrent测序平台使用的文件中提取读数。它能够处理sff格式的文件，这是一种常用的生物信息学数据格式，其中包含了原始的测序数据和相关质量评分。sff_extract为用户提供了从这种专用格式中提取有用信息的能力，便于进一步的生物信息学分析。 2. split_matepairs：该程序用于拆分由寡核苷酸序列分隔的配偶对。在某些测序技术中，为了提高测序效率，会将成对的序列（即配偶对）使用特定的接头（adapters）连接在一起。split_matepairs能够识别这些接头并将成对的序列分开，使得后续的数据分析更加方便和准确。 3. filter_by_quality：此程序允许用户根据序列的平均质量过滤序列。质量控制是测序数据分析的一个重要步骤，序列质量的好坏直接影响到后续分析结果的可靠性和准确性。filter_by_quality可以设定一个质量阈值，只保留高于该阈值的序列，从而确保数据分析的质量。 4. filter_duplicates：这个实用程序可以过滤掉序列数据中完全相同的序列。在生物信息学实验过程中，由于PCR扩增或其他原因，可能会产生重复的序列。filter_duplicates能够帮助用户去除这些重复数据，避免它们对分析结果产生干扰。 5. filter_by_length：此程序根据设定的长度阈值过滤序列。在某些情况下，只有长度达到一定标准的序列才是有用的。例如，在微生物群落分析中，可能会关注长度超过特定阈值的16S rRNA基因序列。filter_by_length就是用来保留满足长度要求的序列，而丢弃不符合条件的序列。 6. filter_by_name：这个实用程序使用文件中给定的名称列来过滤序列。它允许用户根据序列文件中的名称信息来筛选出感兴趣的序列，这对于特定目的的数据处理非常有用，比如只选择某些特定物种的序列进行分析。 Seq Crumbs作为一套Python编写的小型序列处理实用程序集合，特别适合于处理生物信息学数据。用户可以通过访问Seq Crumbs的官方网站获取更多关于该工具的详细信息，并根据自己的需求选择合适的程序进行序列数据处理。该工具的设计和实现体现了Unix编程哲学，即“编写一次，到处运行”以及通过简单命令行工具的组合来完成复杂任务的理念。" 【压缩包子文件的文件名称列表】中只有一个项，即："seq_crumbs-master"。这个名称表明了Seq Crumbs项目的源代码包是以版本控制系统（如Git）中的仓库（repository）形式发布的，且该源代码包是以“master”分支的代码为主。通常情况下，"master"分支被认为是项目的稳定版本，包含了可以正常运行和使用的代码。用户可以从这个压缩包中提取Seq Crumbs的源代码，并根据提供的说明在本地环境中安装和使用该工具集。

收起资源包目录

seq_crumbs:seq_crumbs 旨在成为小型序列处理实用程序的集合（174个子文件）

454_reads2.fastq 7KB

convert_format 2KB

ref_example.fasta.bwt 2KB

arabidopsis_reads.fasta 763B

test_seqio.py 10KB

draw_pair_distance_distribution 4KB

alignment_result.py 48KB

arabidopsis_genes.1.bt2 4MB

ref_example.fasta.1.bt2 4MB

change_case 2KB

test_split_mates.py 14KB

filter_by_bowtie2 3KB

basic_layout.html 7KB

filter_by_length 3KB

ref_example.fasta.4.bt2 482B

plot.py 14KB

conf.py 10KB

comav.png 5KB

calabaza.nsq 518B

classify_chimeras 6KB

ref_example.fasta.ann 39B

ref_example.fasta.pac 483B

filter_duplicates 3KB

statistics.py 29KB

ref_example.fasta 2KB

seqs.bam.bai 176B

filter_by_quality 3KB

theme.conf 169B

filter_by_blast_short 4KB

calabaza 2KB

guess_seq_format 2KB

test_alignment_result.py 49KB

index.py 17KB

annotation.py 10KB

ref_example.fasta.2.bt2 488B

pair_matcher 4KB

linkers.fasta 111B

calabaza.nhr 219B

filter_by_blast 5KB

test_statistics.py 16KB

AddOrReplaceReadGroups.jar 927KB

seqs_to_orientate.fasta 2KB

orf_test.fasta 2KB

MANIFEST.in 171B

filter_by_complexity 3KB

estscan 29KB

reads_2.fastq 180B

iterutils.py 9KB

fastaqual_to_fastq 2KB

calabaza.nin 112B

arabidopsis_genes 5KB

ref_example.fasta.rev.1.bt2 4MB

arabidopsis_genes.rev.1.bt2 4MB

test_pairing.py 25KB

filters.py 14KB

cgitb.py 12KB

filter_by_name 3KB

arabidopsis_genes.4.bt2 1KB

favicon.ico 1KB

seqio.py 17KB

sequence.gb 11KB

interleave_pairs 2KB

arabidopsis_genes.nsq 1KB

filter_all_ns 2KB

blast.py 15KB

layout.html 5KB

trim.py 17KB

test_transcriptome_orientation.py 12KB

bin_utils.py 17KB

mapping.py 13KB

arabidopsis_genes.2.bt2 1KB

calculate_stats 5KB

deinterleave_pairs 2KB

arabidopsis_genes.nhr 555B

arabidopsis_reads.fastq 1KB

style.css 5KB

SortSam.jar 926KB

count_seqs 4KB

test_mapping.py 14KB

seqs.bam 616B

ref_example.fasta.rev.2.bt2 488B

arabidopsis_genes.rev.2.bt2 1KB

test_bulk_filters.py 8KB

seq.py 9KB

estscan 35KB

test_filters.py 28KB

.gitignore 101B

ref_example.fasta.3.bt2 17B

ref_example.fasta.amb 9B

arabidopsis_genes.3.bt2 62B

cat_seqs 2KB

blast2.blast 3KB

reads_1.fastq 179B

mate_chimeras.py 13KB

test_trim.py 31KB

454_reads.fastq 8KB

arabidopsis_genes.nin 156B

blast.blast 6KB

Makefile 3KB

orientate_transcripts 5KB

共 174 条

PLEASEJUM爬

粉丝: 17
资源: 4576

Seq Crumbs：面向序列处理的Python实用工具集合

seq_crumbs:旨在在 Unix 管道中工作的小序列文件实用程序

Multimedia MCI错误返回码详解(包括mciSendString)

multimodal_seq2seq_gSCAN:Grounded SCAN论文中使用的多模式序列对基线神经模型进行排序

Seq2Seq_Tutorial:中型文章“如何使用序列到序列模型创建神奇的数据产品”的代码

编写C或C++程序，模拟“最近最久未使用（LRU）”页面置换算法。 计算缺页次数并返回。• 函数输入参数说明： page_seq：访问页面序列 seq_len: 访问页面序列长度 mem_page_num：最大分配内存页面数

C#ASP.NET网络进销存管理系统源码数据库 SQL2008源码类型 WebForm

最新资源

编写C或C++程序，模拟“最近最久未使用（LRU）”页面置换算法。计算缺页次数并返回。• 函数输入参数说明： page_seq：访问页面序列 seq_len: 访问页面序列长度 mem_page_num：最大分配内存页面数