基于概率论的多序列联配模型及其在生物信息学中的应用

需积分: 50 39 下载量 70 浏览量 更新于2024-08-08 收藏 3.81MB PDF 举报
《计分模型-ga/t 1396-2017 信息安全技术 网站内容安全检查产品安全技术要求》是一份专注于信息安全领域的技术标准,其中详细讨论了网站内容安全检查过程中使用的序列分析方法。文章的核心知识点集中在: 1. **二序列联配**:这是一种用于比较两个生物序列的技术,如人类α和β球蛋白片段的比较。联配评估两个序列的相似性,通过查找替换、插入(空位)和删除等突变模式。联配的总分是根据这些变化的类型和发生的概率来确定的,正分项对应于更保守的匹配和替换,负分项则对应于不保守的改变。 2. **计分模型**:采用统计学方法,如对数相对似然,量化序列间的相似性。模型假设序列中的突变发生是独立的,尽管这在考虑蛋白质结构中残基间相互作用时可能不精确,但仍是分析DNA和蛋白质序列的合理近似。然而,对于结构RNA,需要考虑碱基对的长程关联,这部分内容会在后续章节中处理。 3. **替换分数的推导**:基于统计模型,通过定义符号和记号,对蛋白质或氨基酸序列的替换进行计分,这是构建多序列联配模型的基础。例如,通过比较两个等长序列中字符的匹配,确定其在概率论框架下的价值。 4. **HMM(隐马尔可夫模型)的应用**:文中提到了HMM在生物序列分析中的兴起,特别是在UCSC和剑桥大学的研究小组中,HMM被用来建立蛋白质序列的多序列联配模型,并扩展到RNA二级结构分析。HMM被视为一种强大的工具,因为它能够捕捉序列数据中的隐藏信息,并被应用于多个生物学领域。 5. **写作背景**:书的编写源于1995年圣诞节期间几位研究者对概率论建模在生物序列分析中潜力的共享认识。他们决定编写一本强调这一方法实用性的书籍,尽管它不是传统的实用指南,而是着重于基础介绍和方法解释。 《计分模型-ga/t 1396-2017》提供了一个深入理解生物序列分析特别是网站内容安全检查中的统计模型和技术的平台,展示了如何利用概率论和统计学方法处理序列数据,以揭示潜在的生物关系和结构信息。