非负矩阵分解在基因表达数据分析中的应用与改进算法研究

版权申诉

200 浏览量更新于2024-07-01 收藏 1.34MB PDF 举报

"这篇文档详细探讨了非负矩阵分解（Non-negative Matrix Factorization, NMF）在人工智能领域，特别是数据分析和基因表达数据处理中的应用。文章指出，由于生物信息学中基因表达数据的高维度和小样本特性，选择合适的分析方法至关重要。作者采用了NMF及其变种，如图正则化非负矩阵分解（Graph Regularized Non-negative Matrix Factorization, GNMF），并提出了两种改进算法：基于L0范数图正则非负矩阵分解（GL0NMF）和监督性稀疏非负矩阵分解（Supervised Iterative Sparse Non-negative Matrix Factorization, CISNMF）。首先，文章对NMF的基础理论进行了概述，然后利用GNMF对肿瘤样本进行聚类分析。通过比较NMF、SNMF（Sparse Non-negative Matrix Factorization）和GNMF的聚类效果，展示了GNMF在肿瘤样本聚类中的潜力。接着，文章介绍了GL0NMF，这是将GNMF与L0范数约束相结合的算法，用于基因表达数据的特征基因提取。通过与Pattern Mining-based Dimensionality Reduction (PMD)、Sparse Principal Component Analysis (SPCA)和GNMF的比较，证明了GL0NMF的有效性。此外，为了提升NMF在基因表达数据分析中的效率，文章提出了一种监督性的CISNMF算法，它引入了类别信息以实现更精确的特征选择。通过与PMD、SPCA、SNMF和Support Vector Machine with Recursive Feature Elimination (SVM-RFE)的对比，CISNMF展示出了其在基因提取方面的可行性和优越性。这篇研究论文的创新之处在于GL0NMF和CISNMF这两种新算法的提出，它们为基因表达数据的分析提供了新的工具，尤其是在降低维度和提取关键特征方面。这些方法的应用有助于深入理解基因功能，揭示生物数据背后的模式，从而推动生物医学研究的进步。"

第 1 章绪论

基因表达数据的获取除了利用寡核苷酸芯片和 cDNA 微阵列方法外，还可以通过

EMBL，GehBank 和 DDJJ 这三个公开的基因库中获取

[1]

。我们获得的基因数据一般是处理

好的数值型数据，通常是含有成千上万个基因和少量的样本数组成。对应的基因表达数据

矩阵如图 1.2 所示。图 1.2 中矩阵

是由

行

列构成的数据矩阵，每一行对应一个基因

在

个样本中的基因表达水平，每一列对应一个样本内的所有基因。在基因表达数据中，

mn

，

表示基因的数目往往在几万个以上，

表示的是样本的数目，通常

等于几百

的样本。这样超高维小样本的数据构成了一个个基因表达数据矩阵。在基因表达数据矩阵

[ ] [ , , ]

ij i i ij

A a a a a

中，

表示第

个基因在第

个样本中的基因表达水平，该值越大

越好。

在获得的基因表达数据之后，往往需要对数据矩阵进行预处理，比如处理噪声数据和

缺失数据等

[43]

。根据选择的方法不同，对数据矩阵进行合适的预处理。将处理之后的数据

矩阵进行分析。基因表达数据分析方法通常包括：差异表达基因的显著性分析，共表达基

因的显著性分析，基因表达数据的聚类分析，基因表达数据的分类分析，Map to GO 和 Gene

regulatory network（基因调控网络）。差异表达基因的显著性分析是寻找前后两个条件下

的上调基因或者下调基因，找出符合条件的差异基因。常采用标准的统计学进行检验。基

因的共表达分析是在不同的条件下，检验基因之间的表达是否相似。基因表达数据的聚类

分析是将表达谱相似的聚为一类，在此基础上寻找相关模式的基因，分析基因的功能或对

样本进行聚类分析。它属于无监督学习，对未知类别模式根据相应的聚类算法进行分组，

进而发现新的模式，进而揭示生物学的奥秘。常用于基因表达数据聚类分析的方法有：层

次聚类（HC）

[44]

，自组织神经聚类算法（SOM）

[45]

和非负矩阵分解算法（NMF）

[14]

等。

基因表达数据的分类分析属于监督学习，按照基因表达数据将样本分为两类或多类进行训

练预测，从而更好地对癌症的诊断。Map to GO 是通过基因本体论（Gene Ontology）

[46]

这

个数据库对基因进行分析，找到一批“interesting”基因。Gene regulatory network 是将表达

谱相似基因可能具有共同的调控元件（基因 UTR 区域存在共同的启动子），能够被同一

个上游因子所调控。基因表达数据分析以生物信息学作为出发点，根据所获取的数据进行

分析，进而揭示某一生物学中特定基因的功能。其最常用的方法有：聚类分析，分类研究，

特征基因的提取与选择等。

1.4 本文的组织结构及创新点

本文的组织结构如下所示：

第一章课题研究的背景和意义，对国内外研究现状及对基因表达数据分析做了概括，

以及简单地介绍了本文的组织结构。

第二章对非负矩阵分解算法理论做了概括，并对非负矩阵分解算法应用到在聚类中进

行实验验证及相关分析。

万方数据

第 2 章非负矩阵分解及在基因表达数据聚类中的应用研究

2.1 非负矩阵分解的相关理论

1999 年，D.D.Lee 和 H.S.Seung 首次提出一个新的矩阵分解方法即非负矩阵分解算法

（Non-negative Matrix Factorization，NMF）

[9]

，并将其应用到脸部识别的应用当中，展现

NMF 可以用局部构成整体的特点。NMF 的基本思想可以简单地描述为：任意给定一个非

负数据矩阵

，总能找到这样两个矩阵

和

，使得这两个矩阵的乘积尽量地等于原始矩

阵即

A FP

。NMF 分解与其它的矩阵分解（PCA、ICA 和 SVD 等）不同，这些方法在分

解为低秩矩阵时允许减性描述即允许分解后的矩阵或向量出现负值，而 NMF 在分解矩阵

或向量时只允许加性描述即分解后的矩阵或向量中都是非负元素。在现实生活中负值很难

解释实际问题中具体的意义，且 NMF 采用简单的乘法运算，故 NMF 与传统的矩阵分解算

法相比更能节省计算资源，占用内存少，具有简便性和可解释性等特点

[31]

。基于此考虑，

NMF 引起相关研究人员的关注，并被广泛地应用到人脸识别，图像处理，文本分类和特征

提取等各个领域内

[18,19,21]

。但是 NMF 也有缺陷，比如：NMF 的无监督性使得在分解后得

到的矩阵或向量中不含有类别信息，或无法找到数据内的结构信息；NMF 分解后产生的稀

疏程度有时不能满足一些应用的要求，比如稀疏编码。因此，为提高 NMF 的可解释性和

有效性，一些改进的 NMF 相应地被提出来。为增强稀疏的程度，在目标函数上施加稀疏

约束构成一大类稀疏的非负矩阵分解算法。常见的稀疏性改进的 NMF 包含局部非负矩阵

分解（Local Non-negative Matrix Factorization，LNMF），非负稀疏编码（Non-negative Sparse

Coding，NNSC），稀疏非负矩阵分解（Sparse Non-negative Matrix Factorization，SNMF），

稀疏约束控制的非负矩阵分解（Non-negative Matrix Factorization with Sparseness

Constraints，NMFSC）和基于 L

范数的稀疏非负矩阵分解（Sparse Non-negative Matrix

Factorization with L

-constraints，L

-NMF）等。LNMF

[22]

由 Li 等人提出来用于人脸识别中，

实验结果验证了 LNMF 算法要优于 PCA 和基本的 NMF 算法。LNMF 的目标函数采用

Kullback-Leibler 距离进行计算，在其基础上对基向量进行约束控制即对局部进行限制，进

而减少数据的冗余节省计算时间。为了得到更好的稀疏性，Hoyer 把 NMF 的思想和基稀疏

性编码进行了结合，提出了非负稀疏编码（NNSC）方法

[23]

。NNSC 是在利用均方误差函

数作为目标函数基础上对系数矩阵进行稀疏，进而节省空间资源提高了计算效率。由于

NNSC 不能保证矩阵中每个元素都是非负值，且采用强制的步骤使得非负值等于零，并不

符合 NMF 完全的乘法更新规则。为了克服以上缺点，Liu 等人利用 Kullback-Liebler 散度

目标函数替换 NNSC 的均方误差函数并提供了完整的乘法更新规则，在此基础上提出了一

种稀疏非负矩阵分解（SNMF）方法

[24]

。为了更好地控制稀疏的程度，Hoyer 在 SNMF 的

万方数据

剩余57页未读，继续阅读

programcx

粉丝: 44
资源: 13万+

非负矩阵分解在基因表达数据分析中的应用与改进算法研究

非负矩阵分解及其应用探讨

论文研究-非负矩阵分解在遥感图像融合中的应用.pdf

计算机研究 -非负矩阵分解在聚类中的应用研究.pdf

人工智能-机器学习-非负矩阵分解及其在人脸识别中的应用.pdf

行业分类-设备装置-基于短时连续非负矩阵分解的语音时长调整方法.zip

人工智能-数据分析-通过基因矩阵数据分析识别阿尔茨海默病致病基因.pdf

人工智能-数据分析-基于贝叶斯统计思想的基因表达数据分析.pdf

人工智能-数据分析-基因芯片数据分析.pdf

行业分类-设备装置-一种基于非负矩阵分解的手机图像特征提取方法.zip

非负矩阵分解在人脸识别中的应用

最新资源