斯坦福ML公开课121：探索无监督学习的K均值与MoG算法

聚类

kmeans

需积分: 0 141 浏览量更新于2024-08-05 收藏 522KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

在斯坦福大学的机器学习公开课程中，第12讲聚焦于无监督学习的主题，特别是K-means聚类算法。相比于前几讲，这一章节的转变标志着从有监督学习向无监督学习的过渡，因为K-means是一种在没有标记数据的情况下进行数据分析的常用算法。 K-means算法的核心思想是将一组数据自动分成若干个类别，每个类别由一个中心（聚类中心）代表。该算法的流程如下： 1. 初始化：随机选择k个聚类中心μ1, μ2, ..., μk位于n维空间中。 2. 分配阶段：计算每个样本到各个聚类中心的距离，将样本分配到距离最近的聚类，赋予其对应的类别标签。 3. 更新阶段：根据当前的分类结果，每个聚类中心更新为该类别的样本平均值，即聚类中心的新位置是其成员点的加权平均。 4. 重复步骤2和3，直到聚类中心的变化幅度小于预设的阈值或达到预定迭代次数，算法收敛。 K-means的目标函数是数据点与其所属聚类中心的平方误差之和，公式为J(label, μ) = ∑||x(i) - μ_label(i)||^2，其中x(i)是第i个样本，μ_label(i)是其对应的聚类中心。通过迭代优化这个目标函数，算法逐渐逼近最佳的聚类划分。在本节中，还提到了混合高斯分布模型（Mixture of Gaussians, MoG）和基于EM算法的求解方法。EM算法是一种迭代优化技术，特别适用于处理MoG模型，通过E步（Expectation）估计每个样本属于每个高斯分量的概率，然后在M步（Maximization）更新高斯分布参数。这是一种重要的无监督学习技术，常用于图像分析、文本分类等领域，因为它能够发现数据中的潜在结构。 Jensen不等式在这个过程中也有提及，它是概率论中的一个重要概念，用于证明某些统计量的性质，但在此处主要是作为理论工具帮助理解EM算法的收敛性。 K-means的应用广泛，如基因表达数据的聚类分析、市场细分以制定差异化营销策略、新闻聚合以减少重复信息，以及在计算机视觉中的图像分割等。它的优点是简单直观，但缺点是对初始聚类中心的选择敏感，并且假设簇的形状为球形，可能不适合非凸形状的数据分布。斯坦福ML公开课第12讲深入浅出地介绍了无监督学习中的关键算法K-means及其相关理论，这对于理解和实践机器学习中的数据挖掘和模式识别至关重要。

资源详情

资源推荐

http://weibo.com/yanxiangzhang http://blog.csdn.net/stdcoutzyx

斯坦福 ML 公开课笔记 12

本文对应斯坦福 ML 公开课的第 12 个视频，第 12 个视频与前面相关性并不大，开启了

一个新的话题——无监督学习。主要内容包括无监督学习中的 K 均值聚类(K-means)算法，

混合高斯分布模型(Mixture of Gaussians, MoG)，求解 MoG 模型的 EM 算法，以及 EM 的一

般化形式，在 EM 的一般化形式之前，还有一个小知识点，即 Jensen不等式(Jensen’s inequality)。

K-Means 算法

在之前的算法和模型中，训练数据都是带有标记的，这样的算法是有监督学习。当训练

数据没有标记时，成为无监督学习。聚类算法就是无监督学习最常见的一种，给定一组数据，

需要聚类算法去发掘数据中的隐藏结构。

聚类算法应用很广。举例来说，对基因进行聚类，可以发掘不同物种中具有相同功能的

基因片段；对顾客行为进行聚类可以把市场分为不同的几个部分，针对不同的顾客可以采用

不同的促销策略；在 google 的新闻首页，对新闻进行聚类，使得描述同一事件的报道不全

部展示；在图片分割中，可以利用图片不同部分的相似性来理解图片信息等。

下面对 K-Means算法的流程进行介绍，给定输入数据为󰇝

󰇛



󰇜



󰇛



󰇜



󰇛󰇜

󰇞，K-Means

算法如下：

1) 选择初始的 k 个聚类中心















2) 对每个样本数据来说，将其类别标号设为距离其最近的聚类中心的标号，即



󰇛󰇜







󰇛󰇜





 (1)

3) 将每个聚类中心的值更新为与该类别中心相同类别的所有样本的平均值，即









󰇝

󰇛



󰇜

󰇞

󰇛󰇜







󰇝

󰇛



󰇜

󰇞





(2)

4) 重复第 2 步和第 3 步，直到聚类中心的变化低于阈值为止

对于 K-Means 来说，它要优化的目标函数可以看成如下形式：



󰇛



󰇜



󰇛



󰇜





󰇛󰇜









(3)

可以将 K-Means 算法看做是目标函数 J 的坐标下降过程，在第 2 步，我们保持聚类中

心不变，将样本类别设为距离最近的中心的类别，此时修改了类别的样本的的目标函数项会

变小，即







修改类别值的样本

值变小，而没有修改类别的样本值不变，从而整体变小。

在第 3 步中，更新了聚类中心点的值，这样使得对每个类别来说，其目标函数项会变小，即







属于某类的样本

变小，从而整体变小。

在 K-Means 算法中，如何选择初始的聚类中心数目 k 是一个普遍的问题。有很多自动

选择聚类中心的算法，但不在本文的范围内。

由于公式 3 不是一个凸函数，因而 K-Means 算法能保证收敛到一个局部极值，不能保

证收敛到全局极值最优值。一个较为简单的解决方法是随机初始化多次，以最优的聚类结果

为最终结果。

在聚类结束后，如果一个中心没有得到任何样本，那么需要去除这个中心点，或者重新

初始化。

聚类算法可用于离群点检测，离群点检测应用也很普遍，比如飞机零件的评测，信用卡

下载后可阅读完整内容，剩余5页未读，立即下载

琉璃纱

粉丝: 18
资源: 298

斯坦福ML公开课121：探索无监督学习的K均值与MoG算法

斯坦福ML公开课笔记_中文版

斯坦福公开课《编程范式》

斯坦福大学傅里叶变换及应用笔记.pdf

stanford oussama khatib大神的《机器人学》公开课及对应的讲义

机器人学 斯坦福 pdf

吴恩达机器学习笔记 pdf

斯坦福cs229-机器学习讲义

斯坦福math51资源

斯坦福 stanford doggo 图纸

斯坦福龙三维点云pcd

斯坦福大学cs229作业

coursera-ml-andrewng-notes-master.zip

斯坦福兔子点云配准结果

怎么考到斯坦福商学院

vs怎么显示斯坦福兔子

斯坦福开源狗odrive固件

如何在pycharm中安装斯坦福ner 模型

python的学习课程推荐

斯坦福大学java练习题

吴恩达机器学习python笔记

最新资源

机器人学斯坦福 pdf