在中科大汪增福教授的模式识别课程中,第三次作业涉及了统计模式识别中的聚类方法这一核心概念。聚类是数据挖掘和机器学习领域的重要技术,它旨在将数据对象划分到不同的组,使得同一组内的对象相似度较高,而不同组之间的差异较大。
首先,聚类准则函数是评估和选择聚类方案的关键。常见的聚类准则有:
1. 误差平方和(Sum of Squared Errors, SSE):衡量的是每个样本到其所属簇中心的平均距离的平方和,目标是最小化这个量。
2. 权平均平方距离和(Weighted Average Squared Distance, WASD):考虑了样本的重要性或权重,对距离赋予不同的权值后求和。
3. 类间距离和(Inter-cluster Sum of Squares, ICS):关注不同簇之间的总差异,通过比较簇内和簇间的总体分散程度。
4. 离散度(Entropy or Dissimilarity):如Shannon熵,衡量的是簇内的差异程度,试图最小化不确定性。
聚类算法根据其操作方式主要分为三类:
- 增类聚类(如K-means, DBSCAN):基于样本间的相似性递增地增加簇的数量,直到满足停止条件。
- 减类聚类(Hierarchical Clustering):从所有样本开始,逐步合并相似的簇形成层次结构,最终得到预设数量的簇。
- 动态聚类:算法根据数据变化动态调整簇的结构,适应非静态的数据环境。
以C-均值(K-means)聚类为例,其流程包括:
1. 初始化:选择k个初始聚类中心。
2. 计算每个样本到各个聚类中心的距离,分配样本到最近的簇。
3. 更新每个簇的质心(聚类中心)为该簇所有样本的平均值。
4. 重复步骤2和3,直至簇中心不再变化或达到预设迭代次数。
作业还要求学生处理一个样本集合,使用近邻函数法进行聚类分析。近邻函数法是一种简单但直观的方法,它通过计算样本间的距离,确定每个样本的k个最近邻居,然后基于这些邻居进行分类。
最后,讨论了最下张树(Minimum Spanning Tree, MST)聚类算法。MST聚类通过构建连接样本的最小代价树来实现,具有以下特点:
- 优点:构建过程简单,适合大规模数据,能有效地发现数据集的全局结构。
- 缺点:对噪声敏感,易将噪声样本误分类;对于密度较小的簇,尤其是距离相近的簇,其区分能力有限。
综上,汪增福模式识别课程的第三次作业涵盖了聚类方法的基本概念、不同准则的选择、常见算法的流程及其适用场景,以及针对具体问题的实例分析。理解并掌握这些内容对于理解和应用模式识别技术至关重要。