沈子鸣的机器学习实验:K-means与GMM实现及EM算法分析

需积分: 0 0 下载量 181 浏览量 更新于2024-06-30 收藏 1.53MB PDF 举报
"沈子鸣-1170301007-GMM1" 这篇实验报告主要讨论了两种聚类算法——K-means和混合高斯模型(GMM),并涉及了期望最大化(EM)算法。实验由哈尔滨工业大学计算机科学与技术学院的学生沈子鸣完成,作为机器学习课程的一部分。 1. K-means算法 K-means是一种基于原型的聚类方法,其核心思想是通过迭代寻找最佳的聚类中心。算法流程如下: - 初始化:随机选择K个初始聚类中心。 - E步(期望步):计算每个样本到所有聚类中心的距离,将样本分配到最近的聚类中心所在的类。 - M步(最大化步):根据当前类内的所有样本重新计算聚类中心,通常是取类内所有样本的均值。 - 迭代:重复E步和M步,直到聚类中心不再显著移动或达到预设的最大迭代次数。 K-means算法的效率高,但其性能严重依赖于初始聚类中心的选择。随机选择可能导致局部最优解,而非全局最优。 2. 混合高斯模型(GMM) GMM是一种概率模型,它假设数据由多个高斯分布混合生成。EM算法用于估计GMM的参数,包括每个高斯分量的均值、方差和混合系数。EM算法的步骤如下: - E步:计算每个样本属于每个高斯分量的概率(后验概率)。 - M步:根据E步计算出的后验概率,更新高斯分量的参数,包括均值、方差和混合系数,以最大化对数似然函数。 实验中,学生使用EM算法来估计GMM的参数,并观察每次迭代后似然值的变化,以此评估算法的收敛性和结果的准确性。 3. 实验要求与环境 学生需要生成多组高斯分布数据,并使用K-means和自实现的EM算法进行聚类。实验环境为Windows10和Python 3.7.4,使用Jupyter Notebook 6.0.1进行编程。 4. 实验设计 实验中,学生不仅实现了K-means和GMM,还比较了两种方法在处理特定数据集(如UCI数据集)时的效果。通过对初始值选取的探讨,强调了合理初始化对于聚类算法的重要性。 总结来说,这篇报告详细阐述了K-means和GMM两种聚类算法的原理,以及它们在实际应用中的实现和局限性,同时通过实验验证了EM算法在GMM参数估计中的作用。实验表明,理解和优化初始化策略对于提高聚类算法的性能至关重要。