Kmeans与Meanshift算法探析：聚类与概率密度梯度估计

版权申诉

36 浏览量更新于2024-06-29 收藏 608KB DOCX 举报

"本文讨论了聚类算法中的Kmeans与梯度算法Meanshift之间的关系，以及它们与EM算法的联系。同时提到了矢量量化和混合高斯模型在数据压缩和统计分析中的应用。" 在聚类算法领域，Kmeans是最常见的方法之一，它的主要思想是通过迭代更新样本的类别归属和类别中心来达到聚类的目的。Kmeans的基本流程包括两个步骤：E步（ Expectation，期望步）和M步（Maximization，最大化步）。在E步中，样本根据当前类别中心被重新分配到最近的类别；在M步中，类别中心根据当前的样本分配进行更新。然而，Kmeans假设所有类别的协方差矩阵相同，这限制了它对具有不同形状分布的数据集的适应性。 Meanshift算法则是一种概率密度梯度估计方法，它通过寻找数据点的概率密度函数的局部最大值来进行聚类。与Kmeans相比，Meanshift更灵活，因为它不局限于特定的核函数，能够处理非凸形状的类边界，并且可以发现数据的多个模态。此外，Meanshift被认为是一种牛顿拉夫逊算法的变种，它通过梯度上升法来寻找密度峰值。 Kmeans与EM（Expectation-Maximization）算法在处理混合高斯模型时有相似之处，两者都采用迭代方法寻找最佳参数。EM算法常用于统计建模，特别是处理含有未观测变量的概率模型，如混合高斯模型。EM算法通过交替优化期望（E步）和最大化（M步）两个阶段的对数似然函数，逐步逼近模型参数的真实值。与Kmeans不同，EM算法能够估计每个高斯分量的均值和方差，因此更适合处理具有不同协方差结构的类别。矢量量化（Vector Quantization，VQ）是一种数据压缩技术，通过将大量数据点聚类到少数几个代表性的“码书”向量，从而减少数据存储和处理的需求。Kmeans在VQ中被广泛应用，通过聚类将数据点映射到最近的码书向量，实现数据的有损压缩。混合高斯模型是由多个独立高斯分布组成的复合模型，用于描述数据的复杂分布。在模型参数估计过程中，直接求导可能存在奇异点问题，这时可以采用EM算法或其他迭代方法来解决。模型的可辨识性是评估混合模型能否唯一确定的重要指标，它涉及到模型参数的估计是否稳定和准确。 Kmeans、Meanshift和EM算法在聚类和模型估计中都有其独特的作用和应用场景。Kmeans以其简单和效率受到青睐，但对数据分布的假设较为严格；Meanshift提供了更强大的聚类能力，尤其在处理非凸形状的类别时；而EM算法则适用于复杂的混合模型，能处理带有未观测变量的情况。理解这些算法的特点和限制对于选择合适的聚类方法至关重要。

在 opencv里面关于 meanshift算法的应用还有两个函数 CVmeanshift和 CVCAMshift函数，都是用

于跟踪的，效果还不错。现在在视频跟踪里，meanshift方法+卡尔曼滤波还是挺流行的。

SURF: speed up robust feature

SURF特点：1.使用积分图像完成图像卷积（相关）操作，2，使用 Hessian矩阵检测特征值；3，使用基于

分布的描述符（局部信息）。

兴趣点检测相关研究：

1998 Lindberg介绍自动尺度选择的概念，允许检测图像中的兴趣点在它们的特征尺度上。他实验了 Hessian

矩阵的行列式和 Laplacian(和矩阵的迹一致)检测团状结构。

1998 Lowe提出用 DOG近似 LOG。

2001Mikolajczyk 和 Schmid 重新定义了这个方法，名为 Harris-Laplace和 Hessian-Laplace。使用 Harris

或 Hessian矩阵的行列式来选择特征点的闻之，使用 Laplacian选择尺度。

此外 Mikolajczyk（2005，2006）还做了一些算子的比较工作。从中可知：基于 Hessian检测器比基于 Harris

检测器更稳定，重复检测性更好。此外，使用 Hessian矩阵的行列式比使用它的迹更有优势。同时也发现

使用类似于 DOG的近似方法可以提高速度但只损失很小的精度。

描述符的相关研究

图像特征点的描述符一个共同点是表达了兴趣点邻域内小尺度的特征分布。使得描述符的描述性更好，识

别性更高。SIFT的特点正是掌握了空间域亮度模式的大量信息（基于直方图方法：8 个方向的箱格，4*4

像素）。描述了特征点邻域内点的梯度方向信息，共 128维。

PCA-SIFT：36维，匹配速度更快，但区分度下降，并且延长了特征的计算时间。

GLOH：区分度更高但是数据压缩花销时间太长。

2006 Grabner使用积分图像近似 SIFT。可以达到和我们同样的速度。但是相比 SIFT质量有所下降。（为

SURF提供了重要信息积分图像）。

匹配算法：BBF（k-d tree）,balltrees, vocabulary trees, locality sensitine hashing.本文补充

提出了，使用 Hessian矩阵的迹来显著提高匹配速度。在低维描述符下，任何算法的匹配速度都很快。

二．兴趣点检测。

使用 HESSIAN矩阵的近似检测兴趣点。使用积分图像加快计算。

2001 Viola and Jones 提出积分图像的概念。

1998 Simard 提出的盒形计算框架使用积分图像。

本文的创新点：

使用近似的 Hessian矩阵来求特征点。DOG近似 LOG，盒形滤波近似不同的二次微分。

在 3*3*3的邻域范围内寻找 Hessian矩阵的行列式最大值。9*9盒形滤波器相当于方差 1.2的高斯函数。

图像尺度的改变是通过改变盒形滤波器尺寸实现的。尺度空间的分组时，相邻组首尺度滤波器大小之差

相差 2 倍。如第一二组差 6，则二三组差 12.为了减少计算时间，第一组采样间隔 1 像素，第二组 2 像素，

以此倍增。

特征点的精确定位即实现亚像素描述，通过 LOWE文章中提出的泰勒级数展开，可求得。

三．特征点描述与匹配

剩余16页未读，继续阅读

G11176593

粉丝: 6944

Kmeans与Meanshift算法探析：聚类与概率密度梯度估计

聚类算法Kmeans与梯度算法Meanshift.docx

聚类算法Kmeans与梯度算法Meanshift.pdf

聚类算法Kmeans与梯度算法Meanshift (3).pdf

聚类算法Kmeans与梯度算法Meanshift (3).docx

聚类算法Kmeans与梯度算法Meanshift (2).docx

matlab实现Kmeans聚类算法.docx

matlab实现Kmeans聚类算法 (2).docx

matlab实现Kmeans聚类算法 (3).docx

(完整版)matlab实现Kmeans聚类算法.docx

kmeans是最简单的聚类算法之一.docx

最新资源