单体型组装问题计算模型比较：MEC/GI容错性最佳

需积分: 9 30 浏览量更新于2024-08-11 收藏 400KB PDF 举报

"这篇文章是2008年中南大学信息科学与工程学院的研究成果，主要探讨了单体型组装问题的计算模型，包括MSR、MFR、MEC、WMLF和MEC/GI等不同模型的分析与比较。单体型组装在遗传学研究中具有重要意义，涉及到基因定位、药理反应研究和个体识别等领域。文章指出，在无测序误差的情况下，这些模型的重构精度相似；但在存在测序误差时，MEC/GI模型表现最佳，具有更高的容错性和重构精度，而MSR模型则对测序误差敏感，适用于低误差率的情况。" 文章深入研究了单体型组装问题，这是一个NP难问题，涉及到单核苷酸多态性（SNP）和基因型的分析。在基因组学中，单体型是指一个个体中某一染色体上连续的一系列等位基因的组合，这些等位基因在特定位置上可以是不同的。通过基因测序获取的片段数据，研究人员试图重建个体的完整单体型，这一过程就是单体型组装。 MSR（Most Likely Haplotype Reconstruction）模型是基于最可能的单体型重构，它尝试找到最符合测序数据的单体型组合。MFR（Minimal Fragment Rearrangement）模型则是通过最小化片段重排来确定单体型，而MEC（Minimum Error Correction）模型则考虑了错误校正，力求在允许一定错误率的情况下得到最准确的单体型。 WMLF（Weighted Minimal Loss Fragmentation）模型和MEC/GI（Minimum Error Correction with Gap Insertion）模型进一步改进了错误处理策略，后者不仅考虑错误校正，还允许在组装过程中插入间隙，这使得它在面对测序误差时更具弹性。文章的分析揭示了不同模型在处理测序数据时的差异，特别是在实际应用中，考虑到测序技术的局限性和不可避免的误差，选择适合的模型至关重要。MEC/GI模型由于其优越的容错能力和高重构精度，成为在高误差率环境下首选的单体型组装模型。然而，对于低误差率的数据，MSR模型仍是一种有效的解决方案。总体来说，这篇论文对理解单体型组装问题的计算模型及其性能提供了深入见解，为遗传学研究和生物信息学分析提供了理论支持，有助于优化基因组数据的解析方法，从而推动遗传病研究、药物开发和个人化医疗的进步。

计算机科学

2008Vol.

35NQ.

单体型组装问

计

模型的比较与分析拎)

伟王建新谢民主陈建二

(中南大学信息科学与工程学院

长沙

410083)

摘

要

单体型检测在遗传病基因的定位、药理反应的研究、个体识别等方面有极其广阔的应用前景。单体型纽装问

题指如何利用个体的基因测序片断数据，根据不同的优化准则确定该个体单体型的计算问题。对

MSR

，岛1F

，

MEC

，

WMLF

，

MEC/GI

等单体型组装模型做了详细的分析比较，得出了如下结论:在没有引入测序误差情况下，上述模型的

重构精度基本一致。随着ij!l

序误差的增加，

MEC/GI

模型的容错性最好，重构精度最高山

fSR

模型受测序误差的影响

最大，只适用于测序误差极小的情形。

关键词

单核普酸多态性，基因型，单体型，

难问题

Survey

Computing

创

lels

for

Haplotype

sembly

Problem

ZHOU

Wei W

ANG

Jian-xin XIE Min-zhu

CHEN

lian-er

(Sc

∞

of Inforrnation

ience

and

Engineeri

晤，

Central

uth University, Changsha 410083.China)

Abstract Haplotype detection has expansive application in inherited

gene'

s orientation, medicine reaction' s research

and individual identificatio

The

haplotype assembly problem is the computing problem of inducing a individua

s hap-

lotypes based

several optirnal criteria from

one'

DNA

fragments sequencing data.

This

paper made detailed re-

search on such models as MSR

MFR

, MEC, WMLF,

MEC/GI

and got conclusion as follows: in the case of no read

ing errors

, the reconstruction rate of these models is basically identica

the reading errors increasing, the

MEC/GI

model suffers reading

errors'

influence least and has

the

highest reconstruction rate; MSR model suffers reading

errors'

influence most and is only suitable for

the

case of low reading errors.

Keywords Singl

nucleotide polymorphisms, Genotype,

Haploty

肘，

NP-hard problem

引言

不同的人具有不同的外貌、体格，对疾病有不同抵抗能

力，对药物有不同的敏感性，从遗传上说，这是因为不同个体

(除了同卵双胞胎外)的基因组不完全相同。两个人之间的

DNA

差异约占基因组的

0.1%

，单核背酸多态性

S~Ps(sin

nucleotide

polymorphisms)

为人类染色体某个位点上的碱

基变化。

SNPs

广泛分布在人类基因组中，在整个人类基因

组中大约有

340

万个

SNPs[IL

单核背酸多态性是一个物种中不同个体表型的主要遗传

来源。识别

SNPs

，对基因的精确定位、了解基因功能很有帮

助，对遗传病等疾病的诊断和药物研究有重要作用。

SNPs

可用于个体识别、亲子鉴定，亦可用于人类各群体的遗传关系

分析

[2.3J

Stephens

等采用个体单体型问题变异的方法研究

人类

313

个基因中的

3899

个

SNPs

后进行连锁不平衡分析，

其结果支持了人类群体在近代扩张的说法凶。

Horikawa

等

根据

SNPs

进行关联分析，在墨西哥裔美国人中把

型糖尿

病基因定位在

号染色体长臂，并发现

CAPN10

基因的

个

SNPs

和

型糖尿病相关

[3J

。

一个

SNP

位点指的是在一个物种的基因组

DNA

序列中

不同个体可能出现不同碱基的位置。对于人类等二倍体生

物，染色体是成对存在，每一对染色体的

DNA

序列除

SNP

位

点外都是一样的。在一条染色体

SNP

位点上的碱基序列叫

做单体型(

Haplotype)

。而一对染色体上的某一区域的

SNP

位点上的棍合的碱基序列叫做基因型

(genotype)

。对于任何

一个二倍体生物，都有一对单体型。单体型在

SNPs

的上述

应用中扮演着重要的角色。不幸的是，在当前的实验技术下，

直接测定个体的单体型既费钱又费时间，因此利用计算机技

术来确定个体的单体型有极其重要的现实意义。确定单体型

的计算问题可以分为两大类

单体型组装问题和单体型推断

问题

[4J

。本文主要对单体型组装问题各计算模型的性能进行

比较研究。

单体型组装模型

单体型组装问题就是给定一组来自某对同源染色体的由

DNA

测序方法得到的

DNA

片段数据，根据片段上的

SNP

值

组装出两条单体型囚。一对同源染色体在对应的

SNP

位点

上的值可以相同，也可以不同，因此

SNP

值可以用两个字符

和

来表示，而不必用真正的碱基

，

和

，以减少计

算复杂度。这样

DNA

片断的数据集可以表示为在

，

1,-)

上的一个

mXn

的矩阵，叫做

SNP

矩阵

[5]

，其中矩阵

的

行表示

个片断

，

列表示按在染色体上的次序从左到右

的

个

SNP

位点

，

•

的值表示第

个片断在第

个

SNP

位

点上的取值，其值可以是

，

或，其中

表示片断在该位点

普〉国家自然科学基金重点项目:生物信息学中的相关组合理论和算法研究

(60433020)

。周

伟

硕士研究生，主要研究领域为参数计算、计算

机理论;王建新博士，教授，博士生导师，主要研究领域为计算机算法、网络优化理论、生物信息学;谢民主

硕士研究生，主要研究领域为参数

计算、计算机理论

陈建二

博士，长江学者特聘教授，博士生导师，主要研究领域为生物信息学、计算机理论、计算复杂性及优化。

• 166 •

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38729399

粉丝: 7
资源: 902

单体型组装问题计算模型比较：MEC/GI容错性最佳

论文研究-枚举单体型组装问题多个最优解的遗传算法设计.pdf

论文研究-单体型组装MEC问题的参数化算法研究.pdf

单体模型比混合专家模型好在哪

cesium倾斜模型单体化

cesium中绘制模型单体化

ruoyi框架单体架构图

建行新一代核心系统架构设计

技术架构 设计思路 怎么写

二手交易网站系统分析设计

python工程架构

最新资源

技术架构设计思路怎么写