K均值与 Meanshift：聚类算法解析及关联

版权申诉

176 浏览量更新于2024-06-29 收藏 838KB PDF 举报

"该资源为PDF文档，主题聚焦于聚类算法KMeans和Meanshift，以及它们与EM算法之间的关系。文档可能涉及STM32和计算机科学相关领域，但主要侧重于数据分析和机器学习的算法理论。" 在数据挖掘和机器学习领域，KMeans和Meanshift是两种常见的聚类算法，它们各有特点且与EM算法有一定的联系。 KMeans算法是一种迭代式的聚类方法，其目标是将数据集分割成K个簇，使得每个数据点尽可能属于与其最近的簇中心。KMeans的基本步骤包括初始化簇中心，然后反复更新簇分配和簇中心，直到收敛或达到预设的迭代次数。它简单且易于实现，但在处理非凸形状或大小不一的簇时效果不佳，因为它假设所有簇具有相同的形状和大小。 EM算法，全称为期望最大化（Expectation-Maximization），常用于含有隐变量的概率模型参数估计，例如混合高斯模型。在高斯混合模型中，数据被视为由多个高斯分布混合生成。EM算法通过交替进行期望（E）步骤和最大化（M）步骤来迭代优化模型参数。E步骤中，根据当前参数估计每个数据点属于各高斯分布的概率；M步骤则根据这些概率更新模型参数。尽管KMeans和EM在形式上有相似之处，但EM能够处理不同方差的高斯分布，并能估计类别的方差信息。 Meanshift算法则是一种基于梯度上升的聚类方法，它通过不断移动数据点使其朝向局部密度的峰值，从而找到数据的密集区域，即潜在的类别中心。与KMeans相比，Meanshift不需要预先设定簇的数量，而是通过迭代寻找数据的局部模式。它对数据分布的形状适应性更强，但计算复杂度较高，尤其在高维数据中。在实际应用中，KMeans由于其效率和简单性，常被用于大规模数据集的初步聚类或数据压缩，例如矢量量化。这种有损数据压缩技术通过将大量数据点映射到少数代表性向量，降低了数据的存储和处理需求。另一方面，Meanshift和混合高斯模型在需要捕捉数据复杂分布和多样性的场景下更为适用，例如图像分析中的目标检测。混合高斯模型是概率建模的一种方法，它可以捕捉数据的多样性和复杂性。在参数估计时，直接求解最大似然函数可能会遇到奇异点问题和非闭合形式问题，这通常可以通过EM算法或其他迭代方法解决。模型的可区分性是确保模型有效的重要条件，它涉及到模型能否正确地对不同数据分布进行建模，避免“过拟合”或“欠拟合”。 KMeans、Meanshift和EM算法在聚类和模型估计方面各有优势，选择哪种方法取决于具体任务的需求、数据特性以及对计算效率和模型复杂性的权衡。在STM32这样的嵌入式系统中，可能需要考虑算法的实时性和资源消耗，因此KMeans这样相对简单的算法可能更受欢迎。而在更复杂的计算机科学项目中，可能需要采用如Meanshift或EM这样的方法来获得更精细的模型和结果。

在 opencv 里面关于 meanshift 算法的应用还有两个函数 CVmeanshift 和 CVCAMshift 函数，都是用

于跟踪的，效果还不错。现在在视频跟踪里，meanshift 方法+卡尔曼滤波还是挺流行的。

SURF: speed up robust feature

SURF 特点：1.使用积分图像完成图像卷积（相关）操作，2，使用 Hessian 矩阵检测特征值；3，使用基于

分布的描述符（局部信息）。

兴趣点检测相关研究：

1998 Lindberg 介绍自动尺度选择的概念，允许检测图像中的兴趣点在它们的特征尺度上。他实验了 Hessian

矩阵的行列式和 Laplacian(和矩阵的迹一致)检测团状结构。

1998 Lowe 提出用 DOG 近似 LOG。

2001 Mikolajczyk 和 Schmid 重新定义了这个方法，名为 Harris-Laplace 和 Hessian-Laplace。使用 Harris

或 Hessian 矩阵的行列式来选择特征点的闻之，使用 Laplacian 选择尺度。

此外 Mikolajczyk（2005，2006）还做了一些算子的比较工作。从中可知：基于 Hessian 检测器比基于 Harris

检测器更稳定，重复检测性更好。此外，使用 Hessian 矩阵的行列式比使用它的迹更有优势。同时也发现

使用类似于 DOG 的近似方法可以提高速度但只损失很小的精度。

描述符的相关研究

图像特征点的描述符一个共同点是表达了兴趣点邻域内小尺度的特征分布。使得描述符的描述性更好，识

别性更高。SIFT 的特点正是掌握了空间域亮度模式的大量信息（基于直方图方法：8 个方向的箱格，4*4

像素）。描述了特征点邻域内点的梯度方向信息，共 128 维。

PCA-SIFT：36 维，匹配速度更快，但区分度下降，并且延长了特征的计算时间。

GLOH：区分度更高但是数据压缩花销时间太长。

2006 Grabner 使用积分图像近似 SIFT。可以达到和我们同样的速度。但是相比 SIFT 质量有所下降。（为

SURF 提供了重要信息积分图像）。

匹配算法：BBF（k-d tree）,balltrees, vocabulary trees, locality sensitine hashing.本文补充

提出了，使用 Hessian 矩阵的迹来显著提高匹配速度。在低维描述符下，任何算法的匹配速度都很快。

二．兴趣点检测。

使用 HESSIAN 矩阵的近似检测兴趣点。使用积分图像加快计算。

2001 Viola and Jones 提出积分图像的概念。

1998 Simard 提出的盒形计算框架使用积分图像。

本文的创新点：

使用近似的 Hessian 矩阵来求特征点。DOG 近似 LOG，盒形滤波近似不同的二次微分。

在 3*3*3 的邻域范围内寻找 Hessian 矩阵的行列式最大值。9*9 盒形滤波器相当于方差 1.2 的高斯函数。

图像尺度的改变是通过改变盒形滤波器尺寸实现的。尺度空间的分组时，相邻组首尺度滤波器大小之差

相差 2 倍。如第一二组差 6，则二三组差 12.为了减少计算时间，第一组采样间隔 1 像素，第二组 2 像素，

以此倍增。

特征点的精确定位即实现亚像素描述，通过 LOWE 文章中提出的泰勒级数展开，可求得。

三．特征点描述与匹配

剩余16页未读，继续阅读

G11176593

粉丝: 6928
资源: 3万+

K均值与 Meanshift：聚类算法解析及关联

Kmeans与Meanshift算法探析：聚类与概率密度梯度估计

"Kmeans与Meanshift与EM算法关系研究

Kmeans聚类算法在MATLAB中的应用与优化

聚类算法Kmeans与梯度算法Meanshift.pdf

聚类算法Kmeans与梯度算法Meanshift.docx

聚类算法Kmeans与梯度算法Meanshift (2).pdf

聚类算法Kmeans与梯度算法Meanshift (3).docx

聚类算法Kmeans与梯度算法Meanshift (4).docx

聚类算法Kmeans与梯度算法Meanshift (2).docx

matlab实现Kmeans聚类算法 (3).pdf

最新资源