光滑近邻表示在基因表达数据聚类中的应用

136 浏览量更新于2024-08-30 收藏 447KB PDF 举报

"这篇文章主要介绍了基于光滑近邻表示的基因表达数据子空间聚类算法，旨在有效处理具有小样本量、高维度和非线性的基因表达数据。通过引入光滑约束来改善近邻表示，使数据点与其近邻的关系在重构表示中得以体现，从而实现更精确的聚类效果。实验结果证明，该方法在处理基因表达数据时优于其他现有方法，显示了其在基因数据聚类中的有效性。" 正文: 在生物学研究中，基因表达数据是一个关键的分析对象，它反映了细胞内基因的活性状态。然而，这种数据通常面临着样本数少、基因维数高的问题，这使得传统的数据分析方法难以应用。此外，基因表达数据的非线性特性也增加了分析的复杂性。针对这些挑战，研究者们提出了基于光滑近邻表示的基因表达数据子空间聚类算法。该算法的核心在于利用近邻线性表示来刻画数据集的非线性结构。近邻表示是一种通过数据点之间的相互关系来描述数据的方法，它能够捕捉到数据的局部几何特性。在基因表达数据中，每个数据点的近邻线性表示可以揭示数据点之间的关联性和相似性。然而，仅仅依赖近邻表示可能无法充分反映数据的复杂性，因此，算法进一步引入了光滑约束。光滑表示是通过对近邻表示施加平滑条件来实现的，这样可以确保数据点与其近邻之间的距离关系被嵌入到该数据点的重构表示中。这种平滑处理有助于减少噪声和异常值的影响，同时保留数据的主要结构。通过这种方式，算法能够更好地处理数据的非线性特征，提高聚类的质量。实验部分，研究者们在实际的基因表达数据上对比了所提出的算法与其他现有的聚类方法。实验结果表明，基于光滑近邻表示的子空间聚类算法在处理基因表达数据时表现出优越的性能，能够更准确地识别和区分不同的基因簇，从而有助于生物学家们深入理解基因功能和疾病机制。这项工作为基因表达数据的分析提供了一种新的有效工具，通过结合近邻表示和平滑约束，解决了高维、非线性数据的聚类难题。这一方法不仅对于基因表达数据的分析有着显著的优势，也为其他领域处理类似复杂数据提供了借鉴。其在理论和实践上的贡献将推动生物信息学以及相关领域的研究进步。

第 32卷第 7期控制与决策 Vol.32 No.7

2017年 7月 Control and Decision Jul. 2017

文章编号: 1001-0920(2017)07-1235-06 DOI: 10.13195/j.kzyjc.2016.0629

基于光滑近邻表示的基因表达数据子空间聚类

陈晓云

, 林莉媛

, 叶先宝

2†

(1. 福州大学数学与计算机科学学院，福州 350116；2. 福州大学经济与管理学院，福州 350116)

摘要: 基因表达数据具有样本数少、基因维数高、非线性等特点, 为能有效地处理基因表达数据, 提出光滑近邻

表示子空间聚类算法. 利用每个数据点的近邻线性表示刻画数据集的非线性特点, 并对近邻表示添加光滑约束,

使数据点与近邻的距离关系嵌入到该数据点的重构表示中. 在基因表达数据上的实验表明, 所提出的方法优于其

他几个现有方法,进而表明所提出方法对基因表达数据的聚类是有效的.

关键词: 基因表达数据；子空间聚类；光滑表示；近邻

中图分类号: TP311；TP371 文献标志码: A

Gene expression data subspace clustering based on smooth neighbor

representation

CHEN Xiao-yun

, LIN Li-yuan

, YE Xian-bao

2†

(1. College of Mathematics and Computer Science，Fuzhou University，Fuzhou 350116，China；2. School of Economics

and Management，Fuzhou University，Fuzhou 350116，China)

Abstract: Gene expression data has the characteristics of small sample size, high dimension, nonlinear and so on. In

order to eﬀectively deal with the gene expression data，a subspace clustering method is proposed via smooth neighbour

representation(SNR). The neighborhood linear representation of data points is used to describe the nonlinear proper ties

of data, and the smooth constraint is added on the representation which makes the relationship of distance between data

point and its neighbors embed in the reconstruction representation. Experiment results on gene expression data show that

the performance of SNR is superior to several existing methods, and SNR can cluster gene expression data eﬀectively.

Keywords: gene expression data；subspace clustering；smooth representation；neighbor

0 引 󲿑

随着 DNA 微阵技术的发展, 人们可获得大量的

基因表达数据. 面对海量且复杂的基因表达数据, 如

何有效识别数据中的有用信息具有重要现实意义, 如

肿瘤基因表达数据的分析有助于对肿瘤的发生、发

展机制进行探索, 有助于更好地划分肿瘤的类型及

亚型, 从而更有效地预防和治疗肿瘤. 聚类是分析基

因表达数据的一种重要方法

[1-3]

. 基因表达数据的聚

类可分为 3 类, 分别是样本聚类、基因聚类和双向聚

类

[4]

,本文对样本聚类进行研究.

用于基因聚类的传统方法有层级聚类算法

(HC)、K-means 和自组织映射(SOM). 此外,基于非负

矩阵分解的方法

[5-7]

也成功应用于基因表达数据, 但

只有少数子空间聚类方法应用于基因表达数据, 如潜

在最小二乘回归子空间分割方法

[8]

(LatLSR).

子空间聚类也称子空间分割

[9]

,已在图像表示和

分割、计算机视觉和疾病检测等领域得到较好应用.

这些领域中的数据具有高维特征, 易出现“维数灾

难”问题. 实际上, 高维数据在其环绕空间中往往具

有低维结构

[10]

, 子空间聚类的目标是揭示环绕空间

中数据的低维结构, 并将数据点准确地分割到各自

所属的子空间中. 现有的子空间聚类方法包括迭代

方法、代数方法、统计方法和谱聚类方法

[11]

, 其中

代表性方法有稀疏子空间聚类 (SSC)

[12]

、低秩表示

(LRR)

[13]

子空间分割、最小二乘回归 (LR) 子空间分

割

[14]

等. 之后又产生一系列扩展方法,如潜在低秩表

示子空间分割

[15]

(LatLRR)、鲁棒潜在低秩表示子空

间聚类

[16]

(RLLRR) 等. 这些子空间聚类方法假设样

本数据具有全局线性特点且通过线性自表示方法重

构,一定程度上会影响非线性数据的聚类效果.

收稿日期: 2016-05-20；修回日期: 2016-10-28.

基金项目: 国家自然科学基金项目(71273053, 11571074) ；福建省自然科学基金项目 (2014J01009).

作者简介: 陈晓云 (1970−), 女, 教授, 博士, 从事机器学习等研究；林莉媛 (1991−), 女, 硕士生, 从事智能信息处理的

研究.

†

通讯作者. E-mail: Yexb5626@163.com

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38670318

粉丝: 6
资源: 918

光滑近邻表示在基因表达数据聚类中的应用

高维数据子空间聚类算法研究.pdf

高维数据子空间聚类：一种基于核密度估计的算法

高维数据子空间聚类算法研究与应用

基于子空间聚类的视频人脸数据自动标注

OSC:序列数据的子空间聚类

基于超图的子空间聚类的秩约束矩阵表示

julei.rar_子空间聚类_点云_空间聚类_聚类

一种基于相似维的高维子空间聚类算法.docx

稀疏子空间聚类模型的高光谱遥感图像光谱空间聚类

高维数据子空间聚类中的特征组与个体特征加权方法

最新资源