Motif识别算法与软件性能对比分析

需积分: 10 42 浏览量更新于2024-09-07 2 收藏 233KB PDF 举报

"本文主要探讨了Motif识别算法的重要性，特别是在基因表达调控中的角色，以及当前存在的几种主流算法，如Wordup、MM和Gibbs采样。文章还对13款Motif寻找软件进行了性能分析，其中包括AlignACE、MEME、MotifSampler和Weeder等，结果显示Weeder算法由于其独特的考虑了Motif保守核心位置，因此在识别效果上表现优秀。大部分算法对简单的短Motif有较好的识别能力，导致在处理单细胞生物如酵母的Motif时，性能优于多细胞生物。" 在基因表达调控领域，Motif是指具有特定序列模式的DNA片段，它们通常与转录因子结合，影响基因的活性。本文首先强调了Motif在转录和后转录过程中的关键地位，指出目前虽然有许多Motif识别算法和软件，但对这些算法的性能评测却相对较少。接着，文章介绍了三种常见的Motif识别算法： 1. **Wordup**：这是一种基于词频的算法，通过查找频繁出现的短序列模式来识别可能的Motif。它通常假设Motif是严格一致的，且长度固定。 2. **MM（Matrix Model）**：这种算法建立一个概率矩阵模型来描述Motif的序列特征，允许一定程度的变异，以适应不同生物序列中的不完全一致性。 3. **Gibbs采样**：这是一种统计学方法，通过迭代采样的方式寻找最有可能的Motif。Gibbs采样允许更复杂的序列变异，并能处理不完整的数据集。然后，作者对13款Motif发现软件进行了性能比较，包括AlignACE、MEME、MotifSampler和Weeder等。其中，Weeder算法因其独特之处——考虑了Motif的保守核心位置，即在进化过程中高度保守的序列区域，而表现出较高的识别准确性和效率。这使得Weeder在所有软件中脱颖而出。大多数算法倾向于识别简短且结构简单的Motif，因此在处理像酵母这样的单细胞生物时，由于其基因组相对较小且Motif分布规律，软件表现较为出色。然而，对于多细胞生物，由于基因组复杂性增加，这些算法的识别性能可能会下降。 Motif识别算法的研究不仅涉及生物信息学，也涵盖了统计学和计算科学。通过对不同算法和软件的深入理解与比较，可以为生物学家提供更好的工具，以解析基因调控网络，进一步揭示生命过程中的分子机制。

收稿日期: 2005-06-16; 修返日期: 2006-01-23

基金项目: 国家“863”计划资助项目( 2002AA104540)

Motif 识别算法简介及软件性能研究

朱骥

1, 2

, 杨华

1, 2

, 牛北方

1, 2

, 郎显宇

1, 2

, 陆忠华

, 迟学斌

( 1. 中国科学院计算机网络信息中心超级计算中心 , 北京 100080; 2. 中国科学院研究生院, 北京 100049)

摘要: Motif 在转录和后转录水平的基因表达调控中起着重要的作用。目前, 识别 Motif 的算法和相应的软件

已有不少 , 但是却鲜有对各种算法及软件性能共同评测的研究和报告。介绍了算法的分类以及三种常见的 Mo-

tif 识别算法 Wordup, MM和 Gibbs 采样 , 并对 AlignACE, MEME, MotifSampler, Weeder等 13 种 Motif 寻找软件进行

性能比较分析。通过生物学意义的研究和性能比较结果可以得出 : 由于唯有 Weeder 算法考虑了 Motif 保守核心

位置 , 因而它在各种软件中识别效果较好 ; 大部分算法只考虑简单而且短的 Motif, 所以各种软件对酵母菌这种

单细胞生物的 Motif 识别性能比多细胞生物要高。

关键词: Motif; Wordup; MM; Gibbs 采样

中图法分类号 : TP301. 6 文献标识码: A 文章编号 : 1001-3695( 2006) 10-0066-04

Introduction of Algorithms and Performance Research of

Softwares for Motif Discovery

ZHU Ji

1,2

, YANG Hua

1,2

, NIU Bei-fang

1,2

, LANG Xian-yu

1,2

, LU Zhong-hua

, CHI Xue-bin

( 1. Supercomputing Center, Computer Network Information Center, Chinese Academy of Sciences, Beijing 100080, China; 2. Graduate School,

Chinese Academy of Sciences, Beijing 100049, China)

Abstract: Motif plays a key role in the gene-expression regulating on both transcriptional and post-transcriptional levels.

Nowadays there are several algorithms and softwares on detecting Motif, but, however, there is few papers on comparing the

performance of these algorithms and softwares. This paper comes up with this background to introduce the classification of the

algorithms in general and three common algorithms: Wordup, MM, Gibbs sampling-in details. And aperformance comparison

is made on the thirteen softwares for Motif detecting such as AlignACE, MEME, MotifSampler, Weeder, etc. Based on the

biological research and the performance report, this paper ends with a conclusion thatWeeder isthe most effective one of these

softwares, for it is the onlyalgorithmthattakesaccountof the conserved core positions of Motifs; Most algorithmsonly consider

simple and short Motifs, so their Motif detecting performance on monadic yeast is significantly higher than on metazoans.

Key words: Motif; Wordup; MM( Mixture Model) ; Gibbs Sampling

基因非编码区的一个主要研究方向是对 Motif的研究。因

为转录和后转录水平, 其基因的表达在很大程度上受到一些

Motif 的控制。它们本质上是一些比较短的 DNA 序列, 这些序

列一般均处在受调控基因的上游区域, 转录因子可识别这些

Motif 并与之结合, 从而调节 DNA 的代谢和转录; 或者由 RNA

结合蛋白识别并与之结合, 从而影响 RNA 的修饰、定位、翻译

和降解。因此, 分析和识别 Motif 及了解它们的功能对于理解

和解释整个基因组行为的意义重大。

Motif 的分析主要涉及三类问题: ①在给定基因组序列中

寻找已知的 Motif; ②在一系列共表达或者共调控基因的上游

区域中发现未知的 Motif; ③ 寻找由一个已知转录因子调控的

未知基因。本文主要讨论第二类问题, 即在一系列共表达基因

的启动子区域中探测新的 Motif, 通过分析和提取 DNA 序列特

征来识别 Motif。

一般原核生物的 Motif 特征比较明显, 容易识别。但是真

核生物的 Motif 相对复杂, 其 Motif 长度和空间分布变化较大,

出现没有固定的位置, 相同蛋白质因子作用的结合位点也存在

差异, 这给识别 Motif 带来了很大的困难。因此, 要设计一个能

识别所有 Motif 的方法几乎是不可能的, 而针对不同的生物和

不同特点的 Motif, 出现了很多算法和软件。

1 Motif寻找算法

1. 1 算法的分类

根据算法搜索策略的不同, 研究 Motif 的计算方法主要分

为两大类: ①确定性的方法, 即基于字串的方法, 也称单词数数

法, 它包括简单字串列举法 ( YMF) 、模式驱动列举法 ( Wor-

dup

[ 2]

, Oligo/Dyad-analysis, QuickScore) 、样本驱动列举法

( MOPAC) 、轮廓列举法( Consensus) 、后缀树法 ( Weeder) 、不匹

配( 前缀) 树法( Mitra) 等。单词数数法是基于上游序列中的低

聚核甘酸的频率分析, 将一个单词出现的次数与其期望次数进

行比较来衡量超代表性, 然后将几个相似的单词组合起来形成

一个 Motif。② 似然说的方法。它又称为概率序列模型的方

法, 包括 EM 算法

[ 1]

( MEME, Improbizer) 、Gibbs 采样算法

[ 3, 4]

( AlignACE, ANN-Spec, GLAM, MotifSampler, SeSiMCMC) 等。它

·66· 计算机应用研究 2006 年

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_39840924

粉丝: 495
资源: 1万+

Motif识别算法与软件性能对比分析

C-Motif算法：高效挖掘条件磷酸化基序

3D-Motif方法：工件磨痕三维表征与合并算法

AR_TSM驱动的时间序列motif关联规则挖掘提升预测性能

论文研究-基于免疫GA与Gibbs的模体识别算法.pdf

论文研究-Growth Mechanism of the Industrial Competition Networks based on a Motif-Hierarchical model.pdf

计算机研究 -基于聚类的模体发现算法研究.pdf

计算机研究 -模体的并行聚类算法研究及在短柄草核心启动子预测的应用.pdf

基于多态并行处理器的生物计算并行实现.pdf

并行聚类算法：模体识别与短柄草启动子预测的进展

Angel图推荐算法在全民K歌中的社交与内容推送优化

最新资源