BIRCH算法解析:层次聚类与数据挖掘实践

需积分: 47 26 下载量 143 浏览量 更新于2024-08-15 收藏 598KB PPT 举报
"层次聚类方法的改进--BIRCH-聚类数据挖掘伪代码例子" 在数据挖掘领域,聚类是一种重要的无监督学习方法,用于寻找数据集内的自然分组或模式。本文主要讨论了层次聚类方法的改进——BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies),这是一种有效的聚类算法,尤其适用于大规模数据集。 BIRCH的核心思想是通过聚类特征(Clustering Features, CF)和聚类特征树(CF Tree)来压缩和表示数据,从而降低对内存的需求。CF树是一个高度平衡的树结构,有两个关键参数:分支因子B和阈值T。分支因子B规定了非叶节点的最大子节点数,而阈值T决定了叶节点中子聚类的最大直径。这样的设计使得BIRCH能够在内存限制下处理大数据,同时保持聚类的层次结构。 BIRCH算法的工作流程分为两个阶段。首先,在阶段一,算法扫描数据库并构建CF树。在这个过程中,数据无需一次性全部加载到内存,而是按需从外存逐个读取,确保了算法的可扩展性和对增量聚类的支持。然后,在阶段二,BIRCH对CF树的叶节点应用一种聚类算法,通常是划分方法,如K-means,以生成最终的聚类结果。 BIRCH算法的优势在于其线性时间复杂度O(n),其中n是数据对象的数量。这意味着即使面对大量数据,BIRCH也能快速完成聚类任务。此外,由于其在内存管理和计算效率上的优化,BIRCH特别适合处理高维数据和大数据集。 聚类分析在数据挖掘中有多种应用,包括但不限于: 1. 数据预处理:通过聚类,可以了解数据的概貌,提取特征,提高后续分类或关联分析的准确性和效率。 2. 数据分布洞察:聚类可以帮助理解数据的分布特性,针对不同簇进行深入分析,应用于市场细分、客户定位等多个领域。 3. 孤立点挖掘:孤立点可能隐藏有价值的信息,例如在欺诈检测中,孤立点可能指示欺诈行为。 聚类分析的输出是一个分类集合,其中每个类或簇由其成员的共同特征来描述,如类中心。通过聚类,我们可以识别数据的结构,发现潜在的模式,并为进一步的分析和决策提供依据。在实际应用中,选择合适的聚类算法至关重要,而BIRCH作为层次聚类的一种改进,为处理大规模数据提供了高效和灵活的解决方案。
2018-06-21 上传
BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)天生就是为处理超大规模(至少要让你的内存容不下)的数据集而设计的,它可以在任何给定的内存下运行。关于BIRCH的更多特点先不介绍,我先讲一下算法的完整实现细节,对算法的实现过程搞清楚后再去看别人对该算法的评价才会感受深刻。 你不需要具备B树的相关知识,我接下来会讲得很清楚。 BIRCH算法的过程就是要把待分类的数据插入一棵树中,并且原始数据都在叶子节点上。这棵树看起来是这个样子: 在这棵树中有3种类型的节点:Nonleaf、Leaf、MinCluster,Root可能是一种Nonleaf,也可能是一种Leaf。所有的Leaf放入一个双向链表中。每一个节点都包含一个CF值,CF是一个三元组,其中data point instance的个数,和是与数据点同维度的向量,是线性和,是平方和。比如有一个MinCluster里包含3个数据点(1,2,3),(4,5,6),(7,8,9),则 N=3, =(1+4+7,2+5+8,3+6+9)=(12,15,18), =(1+16+49,4+25+64,9+36+81)。 就拿这个MinCluster为例,我们可以计算它的 簇中心 簇半径 簇直径 我们还可以计算两个簇之间的距离,当然你也可以使用D0,D1,D3等等,不过在这里我们使用D2。 有意思的是簇中心、簇半径、簇直径以及两簇之间的距离D0到D3都可以由CF来计算,比如 簇直径 簇间距离,这里的N,LS和SS是指两簇合并后大簇的N,LS和SS。所谓两簇合并只需要两个对应的CF相加那可 CF1 + CF2 = (N1 + N2 , LS1 + LS2, SS1 + SS2) 每个节点的CF值就是其所有孩子节点CF值之和,以每个节点为根节点的子树都可以看成 是一个簇。 Nonleaf、Leaf、MinCluster都是有大小限制的,Nonleaf的孩子节点不能超过B个,Leaf最多只能有L个MinCluster,而一个MinCluster的直径不能超过T。 算法起初,我们扫描数据库,拿到第一个data point instance--(1,2,3),我们创建一个空的Leaf和MinCluster,把点(1,2,3)的id值放入Mincluster,更新MinCluster的CF值为(1,(1,2,3),(1,4,9)),把MinCluster作为Leaf的一个孩子,更新Leaf的CF值为(1,(1,2,3),(1,4,9))。实际上只要往树中放入一个CF(这里我们用CF作为Nonleaf、Leaf、MinCluster的统称),就要更新从Root到该叶子节点的路径上所有节点的CF值。 当又有一个数据点要插入树中时,把这个点封装为一个MinCluster(这样它就有了一个CF值),把新到的数据点记为CF_new,我们拿到树的根节点的各个孩子节点的CF值,根据D2来找到CF_new与哪个节点最近,就把CF_new加入那个子树上面去。这是一个递归的过程。递归的终止点是要把CF_new加入到一个MinCluster中,如果加入之后MinCluster的直径没有超过T,则直接加入,否则譔CF_new要单独作为一个簇,成为MinCluster的兄弟结点。插入之后注意更新该节点及其所有祖先节点的CF值。 插入新节点后,可能有些节点的孩子数大于了B(或L),此时该节点要分裂。对于Leaf,它现在有L+1个MinCluster,我们要新创建一个Leaf,使它作为原Leaf的兄弟结点,同时注意每新创建一个Leaf都要把它插入到双向链表中。L+1个MinCluster要分到这两个Leaf中,怎么分呢?找出这L+1个MinCluster中距离最远的两个Cluster(根据D2),剩下的Cluster看离哪个近就跟谁站在一起。分好后更新两个Leaf的CF值,其祖先节点的CF值没有变化,不需要更新。这可能导致祖先节点的递归分裂,因为Leaf分裂后恰好其父节点的孩子数超过了B。Nonleaf的分裂方法与Leaf的相似,只不过产生新的Nonleaf后不需要把它放入一个双向链表中。如果是树的根节点要分裂,则树的高度加1。