BLAST应用指南:序列比对与同源性分析

需积分: 4 17 下载量 140 浏览量 更新于2024-08-01 收藏 1.32MB PDF 举报
"BLAST使用说明书 - 全面的序列比对软件,为你的序列比对提供强大支持" BLAST,全称为Basic Local Alignment Search Tool,是一款广泛应用于生物学领域的序列比对工具,它能高效地搜索数据库,帮助研究人员在海量序列中找到与目标序列相似或同源的片段。其主要目标包括识别未知序列、发现多基因家族的其他成员、查找相关蛋白质、确定蛋白质或核酸之间的保守区域,以及在组装测序反应时找寻重叠区域。 在理解BLAST的应用之前,我们需要先区分“相似性”和“同源性”这两个基本概念: 1. **相似性(Similarity)**:这是基于定量分析的概念,例如两个序列中相同或相似的部分所占的百分比。通过计算这些度量,我们可以评估序列间的相似程度。 2. **同源性(Homology)**:则涉及到进化关系的定性判断。如果两个基因或蛋白质有共同的祖先,即使它们在序列上可能不完全相同,我们仍认为它们是同源的。同源性是生物进化研究中的关键概念。 接下来,我们将讨论与同源性相关的几个术语: - **相同(Identical)**:当两个物种或群体在对应位置上的字符完全相同时,我们称这些字符为相同。 - **相似(Similar)**:两个物种或群体在一定程度上共享特性,即它们是相似的。 - **类似(Analogous)**:如果两个特征因趋同进化而相似,即独立的进化过程导致了相似的功能,那么它们被认为是类似的。这与同源性不同,因为类似并不意味着共同的祖先。 - **同源(Homologous)**:如果两个特征由于共同的祖先而相似,我们就说它们是同源的。这涵盖了直系同源和旁系同源。 - **直系同源(Orthologous)**:当两个同源的特征保持了其原始功能,尽管它们在不同的物种中,我们称它们为直系同源。这通常发生在物种分化(分枝)之后。 - **旁系同源(Paralogous)**:在同一个物种内,由于基因复制(gene duplication)事件产生的同源基因,它们虽然具有共同的祖先,但功能可能有所改变或分化,被称为旁系同源。 使用BLAST进行序列比对时,它会根据输入的查询序列,通过高效的算法在大型数据库中寻找最匹配的同源序列。这些结果可以用来推断序列间的进化关系、揭示基因功能、构建系统发育树等。BLAST提供多种变体,如blastn用于DNA对DNA的比对,blastp用于蛋白质对蛋白质的比对,blastx用于DNA对蛋白质的翻译比对等,以满足不同研究需求。 在实际应用中,用户需要根据目标和实验设计选择合适的BLAST版本,并设定参数,如E值(期望值)和阈值,来控制比对的敏感性和特异性。E值表示在随机情况下得到当前比对结果的预期次数,较低的E值意味着比对更有统计学意义。阈值则是决定两个序列被视为匹配的最低相似性分数。 BLAST是生物学研究中不可或缺的工具,它通过高效、精确的序列比对,帮助科学家们揭示生命现象背后的遗传和进化规律。
2019-09-27 上传
Usage: /home/chenlianfu/chenlianfu_scripts/blast.pl [options] BLAST_DB file.fasta > out.txt --tmp-prefix default: blast 设置临时文件或文件夹前缀。默认设置下,程序生成command.blast.list,blast.tmp/等临时文件或目录。 --chunk default: 10 设置每个数据块的序列条数。程序会将输入FASTA文件中的序列从前往后分割成多份,每10条相邻的序列分配到一个FASTA文件中;在blast.tmp/临时文件夹下生成次级文件夹,每个文件夹做多放置10个FASTA文件;每个fasta文件写出一条BLAST命令到command.blast.list文件中;然后程序调用ParaFly进行并行化计算。 请注意:若数据块的数量超过100万个,默认设置下blast.tmp/文件夹中的目录数量太多(超过1万个),导致文件系统运行缓慢,ParaFly程序运行效率低下,无法充分利用服务器计算资源。此时推荐设置--chunk参数值为100。 --blast-program default: blastp 设置运行的BLAST命令,支持的命令有:blastn, blastp, blastx, tblastn, tblastx。 --CPU default: 1 设置并行运行的BLAST程序个数。 --blast-threads default: 1 设置BLAST命令的-num_threads参数值。该参数让每个BLAST命令可以多线程运行。 请注意:--blast-threads参数值和--CPU参数值的乘积不要超过服务器的CPU总计算线程数。 --evalue default: 1e-3 设置BLAST命令的-evalue参数值。 --outfmt default: 5 设置BLAST命令的-outfmt参数值。输出方式。若为5,则输出xml格式结果,若为6或7,则输出表格结果。 --max-target-seqs default: 20 设置BLAST命令的-max_target_seqs参数值。该参数设置BLAST最多能匹配数据库中的序列数量。 -clean 若添加该参数,则在运行程序成功后,会删除临时文件或文件夹。