机器学习入门：K-Means算法详解与实战演示

需积分: 7 83 浏览量更新于2024-09-05 收藏 257KB DOCX 举报

在这个文档中，作者深入探讨了机器学习中的K-Means算法，这是一种经典的非监督学习方法，特别用于数据聚类。K-Means算法基于一种简单但强大的思想，即通过迭代过程将数据集划分为K个互相独立的类簇，每个类簇由一个中心点（平均值）代表。算法的流程主要包括以下步骤： 1. 选择初始聚类中心：首先，随机选择K个样本点作为初始的聚类中心，这些中心点通常表示每个类簇的期望特征。 2. 分配样本到最近的类簇：计算每个样本点与所有聚类中心的距离，并将其归入最近的类簇。这一步骤使用的是欧式距离或曼哈顿距离等相似度度量。 3. 更新聚类中心：根据每个类簇内的所有样本点重新计算新的聚类中心，这个过程会迭代进行，直到聚类中心不再显著改变，或者达到预设的迭代次数。 4. 可视化和评估：通过示例，如使用Matlab代码创建一个二维数据集并演示K-Means的迭代过程，观察类簇如何随着迭代逐渐形成稳定状态。聚类质量可以通过观察聚类中心的变化和类簇内的紧密度来评估。 K-Means的优势在于其简单、易于实现和高效，但也有局限性，比如对初始聚类中心的选择敏感，对于非凸形状的类簇可能效果不佳，且无法处理噪声或异常值。因此，它适用于数据点分布相对清晰、簇的形状接近球形的情况。在实际应用中，可能会结合其他聚类算法（如DBSCAN或层次聚类）进行改进。这份文档不仅提供了理论解释，还提供了实践操作的实例，对于初学者理解和掌握K-Means算法具有很高的价值。

一些前提的约定，还是沿用上篇文章的哈。先来致敬下男神。

一：聚类

就我个人而言，学到了这里，是让我非常激动的事情，因为 K-means 这个算法是我

学习到的第一个非监督学习算法，也是第一个聚类算法。

所谓的无监督学习，就是对于样本来说，我们不知道它的输出，或者不知道它的标签

是什么，我们唯一知道的就是样本空间内，各个样本的特征向量。所谓聚类，就是通过某

种算法，自动将在特征空间内相似的样本聚合在一起组成一个类簇(cluster)，通过自动的

样本聚类，帮助人们发现样本之间的分布和类群特征。

比如在文章分类中，通过提取众多关键词，组合特征的样本向量，通过比较之间的相

似度和距离，自动将文章划分为不同不种类，比如新闻类，财经类，政治类，体育类等等。

再比如社交网络，通过给不同用户 “画像”，也就是给用户建立特征模型，通过聚类找

到相似的群体，有助于商业决策和内容推荐等活动。

二：K-means 算法

也就是有 K 个平均值点。啥意思呢？见我详细道来。先上菜，整起算法过程。

1）在所有点中随机选出 K 个点作为簇中点(μ

, μ

5….

, μ

)，暂且将 K 个簇

编号为 1, 2, 3, 4, 5, ….. K，注意，大写的 K 是数量，小写的 k 是编号。

2）计算出所有样本点 x

(i)

到所有簇中点 μ

的距离 D(i, k)（可以是欧式距离，或者是

曼哈顿距离），再找到距离点 x

(i)

机器学习入门：K-Means算法详解与实战演示

聚类算法概述， K-Means 聚类算法详解.docx

python_docx-0.8.10-py2.py3-none-any.whl

windows python-docx-0.8.11.tar.gz

python_docx-0.8.6-py2.py3-none-any.whl

python-docx-0.8.11.whl下载

html-docx.min.js线上引入地址

python-docx-0.8.11.tar.gz

python_docx-0.8.6-py2.py3-none-any.whl下载地址

python-docx-0.8.10.tar.gz

Python-docx 库中docx.table_of_contents 模块如何使用

最新资源