鲁棒聚类算法:基于有限混合多变量t分布的探讨

需积分: 14 2 下载量 29 浏览量 更新于2024-08-11 收藏 368KB PDF 举报
"这篇文章是关于基于有限混合多变量t分布的鲁棒聚类算法的研究,由余成文和郭雷于2007年发表在《计算机科学》期刊上。研究针对混合模型聚类中遇到的局外点问题,提出了使用混合t模型代替混合高斯模型来处理含有噪声的数据。通过提出两种改进的期望最大化(EM)算法并结合模型选择准则,设计了一种成分灭绝策略来确定最优聚类数量,从而得到两个鲁棒聚类算法。实验结果表明,这些算法在处理含噪数据时能自动选择最佳聚类数,相比混合高斯模型的聚类方法,具有更高的鲁棒性,并且相对于传统的混合t模型的EM或ECM算法,具有更强的鲁棒性,避免了对初始值的过度依赖和容易收敛到参数空间边缘的问题,同时具有较快的收敛速度。关键词包括局外点、鲁棒聚类、混合t模型、期望最大化算法和模型选择准则。" 本文的核心知识点包括: 1. **混合模型聚类**:这是一种数据挖掘技术,通过将数据集分为不同的子群体或簇,其中每个簇可以被一个概率分布模型所描述。常见的模型包括混合高斯模型,即假设数据来自多个高斯分布。 2. **局外点问题**:在聚类分析中,局外点是指不符合簇内数据模式的异常观测值,它们可能会严重影响聚类结果的准确性。 3. **混合t分布**:相比于混合高斯模型,混合t分布对异常值更具鲁棒性,因为它允许更大的尾部厚度,能够更好地处理数据中的异常值或噪声。 4. **期望最大化(EM)算法**:这是用于估计概率模型参数的一种迭代方法,特别适用于含有隐变量的概率模型。在本文中,作者提出了两个修改版的EM算法。 5. **模型选择准则**:在确定最佳聚类数时,需要一种准则来评估不同模型的性能。文章中提到的方法可能包括BIC(贝叶斯信息准则)或AIC(赤池信息准则)等。 6. **成分灭绝策略**:这是一种确定最佳聚类数的方法,通过逐步消除或合并组件来优化模型。 7. **鲁棒性**:算法对数据中的异常值或噪声的抵抗力,本文提出的算法增强了对局外点的鲁棒性。 8. **收敛速度**:评价算法效率的一个指标,本文中的算法不仅鲁棒性好,还具有较快的收敛速度,意味着它们能在较短时间内找到解决方案。 9. **应用领域**:这些鲁棒聚类算法适用于数据中含有噪声或异常值的场景,例如在信号处理、图像分析、生物信息学等领域。 通过以上知识点,我们可以理解这篇论文的主要贡献在于提供了一种更适应噪声环境的聚类方法,提高了聚类分析的准确性和稳定性。