CRF模型驱动的CpG岛位置新识别法：高效与高精度

需积分: 12 154 浏览量更新于2024-08-28 1 收藏 344KB PDF 举报

随着生物技术的飞速发展，基因组测序已经成为科学研究中的关键环节。CpG岛（Cytosine-Cytosine-phosphate-Guanine islands）在基因组中扮演着至关重要的角色，它们通常富含富含甲基化的胞嘧啶，与基因表达调控密切相关。因此，精确地识别CpG岛的位置对于理解基因功能和基因组结构具有重要意义。传统的CpG岛识别方法往往依赖于概率模型，如隐马尔可夫模型（Hidden Markov Model, HMM），但这些方法可能存在标注偏差和过度依赖特定假设的问题。为了克服这些局限性，本研究提出了一种基于条件随机场（Conditional Random Fields, CRF）模型的新算法。CRFs是一种统计学习模型，特别适合处理序列标注任务，因为它能考虑上下文信息，从而提高预测的准确性。新算法首先将CpG岛位置识别问题转化为一个序列标注问题，即将每个基因组位置标记为CpG岛或非CpG岛。算法的设计包括模型构建阶段，它依据CpG岛的特征设计特征函数，捕捉位置间的关系；接着是训练阶段，通过优化模型参数以适应数据中的模式；最后是解码阶段，使用训练好的模型对新的序列进行预测，确定最可能的CpG岛位置。实验结果在标准数据库上进行了验证，结果显示新算法具有较高的准确性和效率，相比于HMM方法，其性能得到了显著提升。这表明该方法不仅能够有效地识别CpG岛，而且在实际应用中展现出良好的鲁棒性和实用性。由于CRF模型的优势，这种方法在处理大规模序列数据时具有更好的性能，对于后续的基因组分析和功能研究具有重要的价值。这项工作在生物信息学领域提出了一个新的CpG岛位置识别算法，通过CRF模型的运用，改善了传统方法的不足，为基因组研究提供了一个更精确且高效的方法。随着生物技术的深入，这种方法有望在未来的基因组研究中发挥重要作用。

小型微型计算机系统

Journal of Chinese Computer Systems

2012

年

月第

期

Vol. 33 No． 7 2012

收稿日期

： 2011-03-15

收修改稿日期

： 2011-05-09

基金项目

：

国家自然科学基金项目

（ 61070047）

资助

．

作者简介

：

刘维

，

女

，1982

年

生

，

博士

，

讲师

，

研究方向为数据挖掘和生物信息学

；

陈崚

，

男

，1951

年生

，

教授

，

博士生导师

，

研究方向为算法设计和并行计算

．

一种新的

CpG

岛的位置识别算法

刘维

，

陈崚

1，2

（

扬州大学信息工程学院计算机系

，

扬州

225127）

（

南京大学计算机软件新技术国家重点实验室

，

南京

210093）

E-mail： yzliuwei @ 126． com

摘要

：

随着多数生物基因组测序工作的完成

，

基因识别就显得尤为重要

． CpG

岛在基因组中有着重要的生物学意义

，

因此识

别

CpG

岛将有助于基因的识别

．

目前已经构建的一些识别

CpG

岛的位置的模型大都存在标注偏差

、

需要独立假设等缺点

，

为

此提出一种基于条件随机场

（ CRFs）

模型的

CpG

岛的位置识别的新方法

．

该方法将识别

CpG

岛的位置的问题转化为序列标记

问题

，

并根据

CpG

岛的位置的性质设计了相应的模型构建

、

训练以及解码的算法

．

利用本文算法可以对输入序列确定最有可能

的标注序列

，

从而识别

CpG

岛的位置

．

通过对标准数据库的数据进行测试

，

其实验结果表明本文算法是可行的

、

高效的

，

比

HMM

方法有更高的准确率

．

关键词

：

条件随机场模型

； CpG

岛

；

序列标记

中图分类号

： TP18

文献标识码

： A

文章编号

： 1000-1220（ 2012） 07-1557-07

Novel Method for CpG Islands Location Identification

LIU Wei

，CHEN Ling

1，2

（ Department of Computer Science，Yangzhou University，Yangzhou 225127，China）

（ National Key Lab of No vel Software Technology，Nanjing University，Nanjing 210093，China）

Abstract： While the genomes of the organisms have been sequenced，gene prediction becomes one of the most important projects．

CpG islands are of important biological significance in the genomes． CpG islands location identification is helpful for gene prediction．

In order to overcome the shortcomings of existing models such as the strong independence assumptions which generative model must

have

，the label-bias problem exhibited by maximum entropy markov model and other non-generative models，we present a novel

method for CpG islands location identification based on conditional random fields model． The metho d transforms the problem of CpG

islands location identification into sequential data labeling． Based on the properties of CpG islands location，w e design the correspond-

ing methods of model constructing、training and decoding． In this paper，we also design the corresponding feature functions and ob-

tain the w eights from the joint distribution over the label sequence given observation through a learning procedure on training data．

Then according to the distribution model obtained，w e can determine the labeled sequence with maximum probability and thereby i-

dentify the location of CpG islands． We test our algorithm by the use of the data sets from the standard database． The experimental re-

sults show that compared with other traditional algorithms，our algorithm is more practicable and efficient than the method of HMM ．

Key words： conditional random fields model； CpG islands； sequential data labeling

引言

随着多数生物基因组测序工作的完成

，

基因识别就显得

尤为重要

．

在人类基因组中

，CG

二核苷酸的分布是不均匀

的

．

在基因组的某些区域内

，

二核苷酸

“CG”

出现的频率往往

要高于基因组其它的区域

，

因此

“CG”

的高含量区

（

通常长达

数百到数千碱基

）

可能意味着转录启动子的存在

，

这种

“CG”

高含量区被称为

CpG

岛

［1］

．

在大规模基因组测序计划中

，

我

们发现每一个

CpG

岛的存在

，

都预示着可能挖掘出了新基

因

［2，3］

．

此外已有研究表明

CpG

岛的研究将直接影响

DNA

甲

基化的发生

，

从而影响到肿瘤的发生发展

．

因此从挖掘识别新

基因

［4］

和肿瘤早期诊断的研究角度来说

，CpG

岛的预测

［5］

都

具有显著的生物学理论和实践意义

．

CpG

岛的识别的工作可表述为两个问题

［6］

：

1）

给定一段

DNA

序列片段

，

判别它是否是一个

CpG

岛

．

）

给定一个

DNA

序列

，

识别其中的

CpG

岛

．

第一个问题可用

Markov

过程来解决

．

我们所要研究的

核心问题是第二个问题

，

即

，

通过对已知为

CpG

岛的序列的

训练得到的先验知识

，

来识别所给出的

DNA

序列中的

CpG

岛

．

近二十年来

，

已出现了很多有关

CpG

岛的识别算法和判

定标准

［7-12］

． Gardiner - Garden

和

Frommer

最早于

1987

年提

出了

CpG

岛的技术标准

． Takai

［7］

等人随后对该标准进行了

部分修正

，

提出了更有利于去除

Alu

重复序列的

CpG

岛的技

术标准

．

随后在

2006

年

，Hachenberg

等人以客观的物理距离

为基础

，

提出了一种新型识别方法

CpGCluster

［8］

．

以上提出的

CpG

岛的判定标准都是人为定义的

，

因此所识别出的

CpG

岛

的生物学意义不大

，

并且计算复杂度极高

．

为了能够正确地发

现真正具有生物学意义的

CpG

岛

，

生物学家们正在积极地寻

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38745859

粉丝: 3
资源: 969

CRF模型驱动的CpG岛位置新识别法：高效与高精度

CGI-HMM: 全基因组CpG岛发现开源工具

CPG: 一种用于连续学习的终身学习算法

PARW-Rank：社交网络节点影响力评估的新型算法

基于CPG算法的重心平衡法在四足机器人运动控制中的应用。

四足机器人步态算法控制研究 ；CPG Hopf振荡器的数学模型 ；制作四足机器人参考的核心博士论文文献 共20多篇论文资料

llvm2cpg：LLVM符合代码属性图

DNA-methylation-prediction:用于预测CpG位点甲基化状态的ML

基于多目标遗传算法的仿人机器人中枢神经运动控制器的设计.pdf

methylAnalysis:一个用于分析亚硫酸氢盐数据的控制台程序

CpG位点甲基化状态预测的ML模型

最新资源

四足机器人步态算法控制研究；CPG Hopf振荡器的数学模型；制作四足机器人参考的核心博士论文文献共20多篇论文资料