无监督学习：聚类分析与K-means算法解析

196 浏览量更新于2024-06-27 收藏 1.74MB PPTX 举报

"商务智能理论与应用6-k-means算法.pptx" K-means算法是商务智能领域中常用的聚类分析方法，它主要用于无监督学习，处理那些没有预先定义类别标签的大规模数据集。聚类分析不同于分类，分类是监督学习，需要已知的类别标签来指导模型学习，而聚类则是探索性的，它尝试找出数据内在的结构和相似性，形成自然的群组。 K-means算法的基本思想是通过迭代寻找最佳的聚类中心，将数据点分配到最近的聚类中心所在的簇。这个过程包括以下步骤： 1. 初始化：选择K个初始聚类中心，通常是随机选取数据集中的K个点。 2. 分配：根据每个数据点与聚类中心的距离，将数据点分配到最近的簇。 3. 更新：重新计算每个簇的聚类中心，通常是簇内所有点的几何中心。 4. 迭代：重复步骤2和3，直到聚类中心不再显著变化或达到预设的迭代次数。在实际应用中，K值的选择至关重要，因为它直接影响聚类结果。过少的K值可能导致数据的结构丢失，过多的K值则可能使簇过于细化，增加计算复杂度。肘部法则（Elbow Method）和轮廓系数（Silhouette Coefficient）等方法可以帮助我们选择合适的K值。相异度计算是K-means算法的核心，通常采用距离度量来判断数据点之间的相似性。欧几里得距离是最常见的度量方式，但在处理不同尺度属性的数据时，可能会导致权重失衡。为了解决这个问题，可以对数据进行规格化，如最小-最大规范化，将所有属性值映射到[0,1]区间，确保每个属性对聚类结果的贡献相对均衡。此外，K-means算法有一些局限性，例如对初始聚类中心敏感，可能会陷入局部最优解；对于非凸形状的簇效果不佳；对异常值敏感等。为克服这些问题，可以使用更复杂的聚类算法，如DBSCAN、谱聚类等，或者对K-means算法进行改进，比如采用K-means++初始化策略。 K-means算法在商务智能中有着广泛应用，例如市场细分、用户行为分析、产品推荐等。通过对大量无标签数据的聚类，企业可以发现潜在的消费群体、市场趋势，从而制定更精准的商业策略。

对象间的相似度和相异度

 对象间的相似度和相异度是基于两个对象间的距离来计算的。

 标量也就是无方向意义的数字，也叫标度变量。现在先考虑元素的所

有特征属性都是标量的情况。例如，计算X={2,1,102}和Y={1,3,2}的相

异度。一种很自然的想法是用两者的欧几里得距离来作为相异度，欧

几里得距离的定义如下：

 其意义就是两个元素在欧氏空间中的集合距离，因为其直观易懂且可

解释性强，被广泛用于标识两个标量元素的相异度。将上面两个示例

数据代入公式，可得两者的欧氏距离为：

除欧氏距离外，常用作度量标量相异度的还有曼哈顿距离和闵可夫斯

基距离，两者定义如下：

 曼哈顿距离：

 闵可夫斯基距离：

2021/2/27 星期六

剩余38页未读，继续阅读

猫一样的女子245

粉丝: 210
资源: 2万+

无监督学习：聚类分析与K-means算法解析

K-means 算法.ppt

k-means算法课件.ppt

K-means算法讲解.ppt

poi-ooxml-5.2.0-javadoc.jar

常见的文件扩展名以及类型

所有的后缀名为.c的文件解压并解包到步骤1中创建的的test目录中

poi-ooxml-schemas-3.12-20150511-a.jar 混淆

office的mime type

使用node.js将md文件转为PPTX文件

最新资源