FCMHap：基于最小误差校正的模糊c-均值聚类单倍型重构算法

48 浏览量更新于2025-01-16 收藏 1.64MB PDF 举报

"基于最小误差校正的模糊c-均值聚类单倍型重构方法" 在医学信息学领域，单倍型重构是一项关键任务，它涉及到解析基因组中的单核苷酸多态性（SNP）以揭示遗传信息。单倍型是染色体上SNP序列的组合，对于理解基因表达、性状与疾病关联具有重要意义。然而，实验方法进行单倍型重构成本高昂且耗时，因此生物信息学方法成为研究焦点。本文提出了一种名为FCMHap的新方法，该方法采用了基于最小误差校正的模糊c-均值聚类策略。首先，FCMHap构建了一个加权模糊冲突图，此图基于输入片段的相似性，将这些片段分到两个聚类中。这个过程是迭代的，能处理含有噪声和缺失数据的输入片段。然后，它应用模糊c-均值（FCM）算法，这是一种模糊聚类方法，能更好地处理数据的不确定性，特别是在存在噪声的情况下。 FCM算法的核心思想是通过模糊隶属函数将数据点分配到多个聚类中，而非传统的硬聚类算法那样只分配到一个聚类。模糊隶属函数允许数据点同时属于多个聚类，且程度不同，从而提高了聚类的灵活性和准确性。在FCMHap中，这种方法用于确定更精确的聚类中心，以优化单倍型的重建。在实际应用中，FCMHap在几个真实数据集上进行了测试，并与其他现有方法进行了对比。评估结果显示，FCMHap在处理高错误率的输入片段时仍能保持高准确性，表明其在单倍型重构领域的潜力。单倍型组装是生物信息学中的一个重要分支，旨在通过组装短读序列来重建完整的单倍型。传统的组装方法在面对测序错误时可能失去准确性，而FCMHap提出的最小误差校正策略有效地解决了这个问题，提高了组装的准确性和效率。总结来说，"基于最小误差校正的模糊c-均值聚类单倍型重构方法"是一种创新的生物信息学技术，它利用模糊聚类算法处理高通量测序数据中的噪声和不完整性，提高了单倍型重构的精度，从而为基因组差异的研究、药物设计、疾病诊断等领域提供了更可靠的基础。这种方法的提出，对于加速基因组学研究，尤其是在资源有限的情况下，具有重要的实践意义。

医学信息学解锁

（

2021

）

100646

基于最小误差校正的模糊

均值聚类单倍型重构方法

Mohammad Hossein Olyaee

，Alireza Khanteymoori

，

，Ebrahim Fazli

工程学院，计算机工程系，

Gonabad

大学，

Gonabad

，伊朗

伊朗赞赞大学计算机工程系

伊朗赞詹伊斯兰阿扎德大学赞詹分校计算机系

A R T I C L E I N FO

保留字：

生物信息

单个体单倍型模糊

均值聚类

最小误差校正

A B S T R A C T

研究人类基因进化已经引起了相当大的关注。单倍型测定提供了关于人类遗传学的关键信息，并有助于理解性

状和疾病之间可能的因果关系。通常，单倍型重建的实验方法在时间和资源方面是过高的。最先进的高通量测

序使得能够利用计算方法来完成这项任务。然而，当前的测序算法一旦其输入片段的错误率增加就遭受截断准

确性。在本文中，我们提出了FCMHap，一个有效的和准确的方法，它包括两个步骤。在第一步中，它构造了

一个加权模糊冲突图的基础上获得的相似性的输入片段，并划分在两个集群中的输入片段的划分图在迭代的方

式。由于输入片段由噪声和间隙组成，在下一步中，它采用聚类中心，利用模糊c-均值（FCM）算法。所提出

的方法已在几个真实的数据集进行了评估，并与一组选定的当前方法进行了比较。评估结果证实，这种方法可

以是这些方法的伴奏。

介绍

人类基因组计划的努力表明，人类99%以上的DNA序列是相同的

[1]。因此，基因组差异是造成我们表型差异的原因，因此可以在广泛

的应用中考虑，例如医学，药物设计，疾病诊断和研究人口历史[2，

3]。单核苷酸多态性（SNP）是DNA序列上具有常见变异的位点[4]。参

与SNP的核苷酸称为等位基因。单倍型是位于特定染色体中的SNP数目

的集合。最近的工作支持这种观点，即单倍型比单个SNP具有更有价值

的信息[5]。在二倍体生物体中，例如人类，基因组被组织成成对的染色

体，其中一对染色体中的一个元件遗传自父亲，另一个元件遗传自母

亲，分别称为父系和母系。因此，从每个拷贝，可以获得一个单倍型序

列[6，7]。单倍型的实验测定需要过多的时间和成本。这鼓励使用计算

方法来完成这项任务。已经设计了多种方法来解决单体型

重建问题。其中主要有：单体型推断[8本文的方法是基于单倍型组装。

在他们的开创性工作[21]中，Lancia和同事提出了单体型组装问题。

它基于这样的假设，即存在属于一对染色体的一些短SNP片段。他们的

模型将这些片段分成两个簇，这样每个单倍型都可以重建。一般来说，

由于与这些片段和缺口以及二倍体生物体相关的错误，这个问题是具有

挑战性的。发现和纠正一个片段的错误已经解决了几个作品。最小片段

去除（MFR）、最小SNP去除（MSR）、最长单体型重建（LHR）和最

小错误校正（MEC）[21]是它们的四个主要代表。虽然MEC提出了最复

杂的方法相比，它的同行，它已经收到了很大一部分的关注，因此已被

用于许多相关的工作。这表明MEC问题是NP难的[22]。

已经提出了许多方法来解决SIH

问题的MEC模型的基础上，它可以分为精确，元启发式和概率方法。

* 通讯作者。

电子邮件地址：

mh. gmail.com（M.H. Olyaee），khanteymoori@gmail.com（A. Khanteymoori），efazli@znu.ac.ir（E.Fazli）。

https://doi.org/10.1016/j.imu.2021.100646

接收日期：2021年3月22日;接收日期：2021年6月18日;接受日期：2021年

2021

年

月

日在线提供

BY-NC-ND

许可证

（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。

可在ScienceDirect上获得目录列表

医学信息学

期刊主页：

www.elsevier.com/locate/imu

下载后可阅读完整内容，剩余8页未读，立即下载

cpongm

粉丝: 6

FCMHap：基于最小误差校正的模糊c-均值聚类单倍型重构算法

,MATLAB环境下基于偏置场校正的改进模糊c-均值聚类图像分割算法 将偏置场校正引入FCM算法，提出一种偏置场校正的改进模糊c-均值聚类图像分割算法，运行环境为MATLAB R2018A 部分代码

模式识别_动态聚类_k均值算法_matlab_画图分析_k-means_Clustering

局部模糊_c均值聚类算法_matlab代码

基于直方图均衡化的伽马校正和K-means聚类的舌像苔质分离方法的MATLAB实现

对Hyperion高光谱影像进行模糊C均值聚类，可视化聚类结果并分析

偏差矫正的模糊c均值聚类算法

遥感光谱K-means聚类分析

k-means聚类分析python拉曼光谱

激光振镜误差校正算法c语言软件

阵列幅相误差进行线阵校正的经典nsf方法,music-capon最小方差法,music算法估计声

最新资源

,MATLAB环境下基于偏置场校正的改进模糊c-均值聚类图像分割算法将偏置场校正引入FCM算法，提出一种偏置场校正的改进模糊c-均值聚类图像分割算法，运行环境为MATLAB R2018A 部分代码