FASTA格式：生物信息学中的序列表示法

需积分: 17 162 浏览量更新于2024-08-26 收藏 1.32MB PDF 举报

"FASTA格式是生物学领域广泛使用的序列格式，用于存储DNA或蛋白质序列信息。它由一个描述行（以'>'字符开始）和随后的序列数据行组成。描述行通常包含序列的标识符，如基因标识符或数据库引用，而后续的行则包含序列本身，每行不超过80个字符。FASTA格式简洁易处理，适用于各种编程语言进行操作，如Python、Ruby和Perl。这种格式的历史可以追溯到FASTA软件，现在已成为生物信息学的标准。FASTA文件中的序列可以通过标识符区分，且序列数据可以进行压缩和扩展。" FASTA格式是一种在生物信息学中至关重要的序列表示方式，它允许科学家们方便地存储、交换和分析生物序列数据。该格式的设计使得序列数据易于处理，无论是手动还是通过计算机程序。在FASTA文件中，每个序列由一个起始行（以'>'符号开头）开始，这一行被称为描述行，通常包含序列的唯一标识符，比如GI号（GenBank Identifier）或者数据库中的参考编号，同时也可以包含关于序列的一些描述性文本。描述行后的连续行是序列的实际数据，这些行以换行符分隔，以保持行长度适中，一般不超过80个字符，这是为了兼容早期的终端设备显示限制。对于较长的序列，它们会被拆分成多行，但是处理时，这些行会被视为一个连续的序列。 FASTA格式不仅限于纯文本文件，还可以与压缩技术结合，如gzip，以减少文件大小，这对于处理大量序列数据尤其有用。此外，该格式还支持扩展，例如，可以添加额外的元数据或注释信息，这些信息可以包含关于序列来源、实验条件或其他生物学相关属性的详细描述。在实际应用中，FASTA格式被广泛应用于基因组学、蛋白质组学以及生物医学研究的各个领域。它被各种生物信息学工具和软件所采纳，如BLAST（Basic Local Alignment Search Tool）进行序列比对，或者用于构建进化树、预测蛋白质结构和功能等。由于其简单性和通用性，FASTA格式已经成为生物序列数据交换的事实标准。

FASTA

式
维
基
百
科
，
⾃
由
的百
科

书
在
⽣
物



中
，
FASTA

式
是
⼀
种
⽤
于
记
录




或
肽


的



式
，
其
中
的


或

基



单



编
码

现
。
该

式
同
时
还

许
在



前




和
编


释
。
这
⼀

式


由
FASTA
软
件



，
但
现

已
是
⽣
物



领
域
的
⼀
项
标

。
FASTA
简

的

式





操
纵
和


的
难

，



可



处
理
⼯

和
诸

Python
、
Ruby
和
Perl
等


语

处
理
。

式
历
史
描

⾏






标
识
符
压
缩
扩



⻅






链

FASTA

式
中
的
⼀





，


开
头
的
单
⾏
描

⾏
和

⾏



据
。
描

⾏⾏
⾸
前

半
⻆
⼤
于

（
“>”
）

和

据
⾏


。
“>”

紧

的
内

为
该


的
标
识
符
，
该
⾏
剩


则
为


的
描

（
标
识
符

描



必
须
）
。
“>”
和
标
识
符

间
不
应
有


，
且

议

单
⾏
内


制
在
80

符

内
。


的
结
束

下⼀



的
“>”

现
为
标
识
。

下为
FASTA
评论


式
⼀



的
⽰


上

中
，
“gi|31563518|ref|NP_852610.1|”
是


的


。
⽬
录

式
>gi|31563518|ref|NP_852610.1 

，


4 microtubule-associated proteins 1A/1B light chain 3A 
isoform b [Homo sapiens] 
MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI 
IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE 
历
史

下载后可阅读完整内容，剩余5页未读，立即下载

黑符石

粉丝: 247

FASTA格式：生物信息学中的序列表示法

维基百科：FASTQ格式

氨基酸符号序列转换为FASTA格式的蛋白质序列

JFASTA:FASTA文件格式的Java实现。-开源

使用Bio.SeqIO写入序列文件：FASTA格式详解

kiley:FASTA->共识

fasta_window_stats:Fasta文件上的序列模式

cursoFasta2014:Fasta 中的 Android 课程代码

PEFF:PSI扩展FASTA格式的存储库

核心生物信息学算法详解：fasta与Smith-Waterman

Python库fasta2png-1：将FASTA格式转为PNG图像

最新资源