概率论方法在系统发育分析中的应用:HMM与进化模型详解

需积分: 50 39 下载量 20 浏览量 更新于2024-08-08 收藏 3.81MB PDF 举报
《系统发育的概率论方法 - GA/T 1396-2017 信息安全技术 网站内容安全检查产品安全技术要求》一文深入探讨了在生物序列分析中运用概率论进行系统发育研究的理论和技术。章节八着重介绍了系统发育的统计模型,特别是通过最大似然树(Maximum Likelihood Tree, MLE)来确定最可能的祖先关系。在这个过程中,涉及到对所有可能祖先(如x4和x5)的序列可能性进行求和,类似于隐马尔可夫模型(Hidden Markov Model, HMM)中计算观测数据的概率路径和。 首先,构建系统发育树的目标是找到一棵具有最大似然性的树,即在给定序列下,具有最高概率的拓扑结构和边长。这个过程涉及两个步骤:(1) 有序遍历叶节点,搜索不同拓扑结构;(2) 对每个拓扑结构,优化边长以最大化整体概率。由于当序列长度增加时,可能的树的数量呈指数级增长,高效的搜索算法至关重要,比如书中提到的Felsenstein算法。 章节还讨论了进化概率模型,即对序列x如何从祖先y经由边长t演化而来这一过程的概率计算。初始假设简化为每个位点独立且不考虑插入和删除,通过残基替换概率P(b|a, t)来描述这一过程。这些概率可以通过一个矩阵S(t)表示,如果满足可乘性条件(即矩阵乘积满足S(t)S(s) = S(t+s)),则表明替换过程具有Markov性和稳定性。 对于核酸序列,文中引用了Jukes & Cantor模型,这是一个特定的替换速率矩阵,用于估计不同核苷酸之间的替换概率。这个模型假设替换速率在时间和进化过程中保持稳定。 此外,文章提及了概率论建模,如HMM,对蛋白质序列分析的重要性,以及它在序列分析中的广泛应用,包括蛋白质结构预测、基因识别和系统发育分析等领域。作者们在1995年受到HMM方法的启发,决定编写一本聚焦于概率论方法在生物序列分析中的书籍,以期向读者展示这种方法的有效性和实用性,尽管这本书并非实用指南,而是倾向于基础理论的介绍和方法的价值阐述。 本文的核心知识点包括系统发育树的构建方法、概率论在生物序列演化学中的应用、HMM模型的介绍、以及特定模型如Jukes & Cantor替换速率矩阵的使用。这些内容对于理解生物信息学中的序列分析和系统发育研究至关重要。