大数据量聚类分析：探索未知类别的对象分组

版权申诉

37 浏览量更新于2024-06-26 收藏 1.73MB PDF 举报

"数据挖掘CHAPTER8聚类分析.pdf" 聚类分析是数据挖掘中的核心方法之一，其目标是对数据对象集合进行无监督的学习，将对象分成若干个类别或簇，使得在同一簇内的对象彼此相似度高，而不同簇间的对象差异大。与分类分析的区别在于，聚类分析事先并不知道数据应归入哪些类别，而是通过算法自动发现数据的内在结构。聚类分析的基础是相异度计算，通常以距离作为衡量标准。距离计算方法多样，如欧氏距离、曼哈顿距离、余弦相似度等，适用于不同类型的数据属性。聚类分析的应用广泛，不仅涵盖数据挖掘和统计学，还深入到生物学、机器学习等多个领域。本章介绍了多种聚类方法，包括： 1. 划分方法（Partitioning Methods）：如K-means算法，通过迭代优化将数据分配到预设数量的簇中。 2. 层次方法（Hierarchical Methods）：分为凝聚型（Agglomerative）和分裂型（Divisive），通过构建树状结构来表示对象之间的关系。 3. 基于密度的方法（Density-Based Methods）：如DBSCAN，寻找连续的空间区域，其中对象密度高于周围区域，用于识别噪声和孤立点。 4. 基于网格的方法（Grid-Based Methods）：如STING和CLARANS，通过分割数据空间为网格，统计每个网格内的对象，便于快速聚类。 5. 基于模型的方法（Model-Based Methods）：如混合高斯模型（Gaussian Mixture Models），假设数据由多个概率密度函数生成，通过最大似然估计找到最佳簇模型。聚类分析在实际应用中具有重要意义。例如，在市场营销中，通过聚类可以识别消费者群体的购买模式，帮助企业定制个性化产品或服务。在生物科学中，聚类分析可以揭示物种间的遗传关系，对基因进行分类。此外，地理信息系统、保险业风险评估、网络文档分类等领域也有广泛应用。聚类分析还与孤立点检测紧密相关，孤立点是与其他对象显著不同的数据点，可能代表异常情况或有价值的信息。通过聚类，可以识别出这些偏离常规模式的点，有助于数据异常检测和潜在问题的发现。总结而言，聚类分析是探索性数据分析的关键工具，它能够无指导地揭示数据集中的隐藏结构，发现自然的类别划分，以及检测异常现象，对于理解和挖掘大规模数据集的价值具有不可估量的作用。

比例标度型变量

比例标度型变量在非线性的刻度取正的度量值，例如指数，近似地遵循如下的公式

（？8.16 p345）

这里的 A 和 B 是正的常数。典型的例子包括细菌数目的增长，或者放射性元素的衰变。

“如何计算用比例标度型变量描述的对象之间的相异度？”目前有三种方法：

 采用与处理区间标度变量同样的方法。但是，这种作法通常不是一个好的选择，因

为刻度可能被扭曲了。

 对比例标度型变量进行对数变换，例如对象 i 的 f 变量的值 xif 被变换为 yif，yif =

log(xif)。变换得到的 yif 值可以采用在 8.2.1 节中描述的方法来处理。需要注意的

是，对一些比例标度型变量，可以采用 log-log 或者其他形式的变换，具体的做法

取决于定义和应用。

 将 xif 看作连续的序数型数据，将其秩作为区间标度的值来对待。

尽管选用哪种方法取决于实际的应用，但后两种方法是比较有效的。

8．2．4 混合类型的变量

在 8.2.1 到 8.2.3 节中讨论了计算由同种类型变量描述的对象之间的相异度的方法，变量

的类型可能是区间标度变量, 对称二元变量,不对称二元变量,标称变量,序数型变量或者比

例标度型变量。但是在许多真实的数据库中，对象是被混合类型的变量描述的。一般来说，

一个数据库可能包含上面列出的全部六种类型。

“那么，我们怎样计算用混合类型变量描述的对象之间的相异度？”一种方法是将变量

按类型分组，对每种类型的变量进行单独的聚类分析。如果这些分析得到兼容的结果，这种

方法是可行的。但是，在实际的应用中，这种情况是不大可能的。

一个更可取的方法是将所有的变量一起处理，只进行一次聚类分析。一种技术将不同类

型的变量组合在单个相异度矩阵中，把所有有意义的变量转换到共同的值域区间 [0.0, 1.0]

上。

假设数据集包含 p 个不同类型的变量，对象 i 和 j 之间的相异度 d(i,j)定义为

d(I,j) = ( ? 8.17 p346)

如果 x

或 x

缺失（即对象 i 或对象 j 没有变量 f 的度量值），或者 x

=0，且变量 f 是不

对称的二元变量，则指示项（？）=0；否则，指示项（？）=1。变量 f 对 i 和 j 之间相异度

的计算方式与其具体类型有关：

 如果 f 是二元或标称变量：如果 x

，d

(f)

（？）=0；否则 d

(f)

（？）=1。

 如果 f 是区间标度变量：d

(f)

（？）=（？），这里的 h 包含了所有有变量 f 值的对象。

 如果 f 是序数型或者比例标度型变量：计算秩 r

和 z

=（？），将 z

作为区间标度变量

值对待。

这样，当描述对象的变量是不同类型时，对象之间的相异度也能够进行计算。

8．3 主要聚类方法的分类

目前在文献中存在大量的聚类算法。算法的选择取决于数据的类型，聚类的目的和应

剩余33页未读，继续阅读

若♡

粉丝: 6484

大数据量聚类分析：探索未知类别的对象分组

MATLAB聚类分析：程序与案例教程

chapter7.rar_MATLAB 聚类_matlab聚类_matlab聚类分析_聚类分析

Liu2020_Chapter5_DocumentRepresentation.pdf

AlphaMiner2.0+用户手册.pdf

MatLab学习总结材料 (2).pdf

chapter13.zip

MATLAB智能算法30个案例分析+源代码_matlab智能算法案例分析及源代码_人工智能matlab_智能算法_matlab_

数据仓库理论知识

【振动分析软件】：选择符合ISO 10816-1标准，精确分析振动数据

cole_02_0507.pdf

最新资源