遗传算法与余弦度量优化的K-均值聚类方法

需积分: 14 119 浏览量更新于2024-08-12 1 收藏 262KB PDF 举报

"余弦度量和适应度函数改进的聚类方法是针对传统K-均值算法在处理文本聚类时存在的问题进行优化的一种策略。这种方法结合了遗传算法的全局优化特性和K-均值算法的高效性，旨在解决K-均值对初始点选择的敏感性以及容易陷入局部最优的缺陷。通过引入余弦度量作为对象间相似性的评估标准，文章构建了新的遗传算法适应度函数，调整了收敛准则，并优化了遗传算法种群的更新机制，从而提高了聚类的精确度和算法的稳定性。" 在文本聚类中，K-均值算法是一种常用的方法，由于其计算简单和效率高，被广泛应用于大量数据的分类。然而，K-均值算法的不足在于其对初始聚类中心的选择非常敏感，如果初始点选取不当，可能会导致聚类结果不理想，甚至陷入局部最优，无法找到全局最优解。为了解决这一问题，研究者们开始尝试将遗传算法与K-均值算法相结合。遗传算法是一种基于生物进化理论的全局优化技术，它通过模拟自然选择和遗传的过程来搜索最优解。在本文中，遗传算法被用来克服K-均值对初始点的依赖，利用其全局优化的能力寻找更优的聚类中心分布。关键创新在于采用余弦度量来衡量对象之间的相似性。余弦相似度是通过计算两个向量的夹角余弦值来判断它们的相似程度，特别适合于处理高维稀疏数据，如文本数据。将余弦度量引入到适应度函数中，使得算法能够更准确地评估每个个体（聚类中心）的优劣，进一步指导遗传算法的进化过程。适应度函数是遗传算法中的核心组成部分，它决定了个体在进化过程中被保留或淘汰的概率。在本文中，新的适应度函数不仅考虑了聚类的紧凑性，还结合了余弦相似度，确保了聚类的准确性和多样性。此外，论文还重新设计了遗传算法的收敛准则和种群更新规则，这些改进提高了算法的收敛速度，减少了迭代次数，同时保持了聚类质量，增强了算法的稳定性。 "余弦度量和适应度函数改进的聚类方法"通过集成遗传算法的全局优化能力和余弦相似度的精准度量，提供了一种更高效、稳定的文本聚类方案，对于处理大规模、复杂的数据集具有较高的实用价值。这一工作不仅在理论上丰富了聚类算法的研究，而且在实际应用中也有很大的潜力，特别是在信息检索、文本挖掘等领域。

第 42 卷第 4 期电子科技大学学报 Vol.42 No.4

2013年7月 Journal of University of Electronic Science and Technology of China Jul. 2013

余弦度量和适应度函数改进的聚类方法

施侃晟

，刘海涛

，白英彩

，宋文涛

，洪亮亮



(1. 上海交通大学电子与电气工程系上海徐汇区 200030; 2. 中国孵化中心杭州 310053)

【摘要】K-均值算法因其简单和高效性，在文本聚类中占有重要地位。针对传统的K-均值算法对初始点敏感、易陷入局

部最优的问题，结合遗传算法已经成为一种趋势。在充分发挥K-均值算法的高效性的同时，该文利用遗传算法的全局自适应

优化特点克服了对初始点敏感的问题。同时，以余弦度量评价对象间的相似性并以此构造新的遗传算法适应度函数、收敛准

则以及遗传算法种群更新方式，提高了K-均值和遗传算法这种结合方式的聚类精度，并增强了该结合算法的稳定性。

关键词遗传算法; 适应度函数; K-均值算法; 相似性度量; 文本聚类

中图分类号 TP18 文献标志码 A doi:10.3969/j.issn.1001-0548.2013.04.017

Text Clustering Method with Improved Fitness

Function and Cosine Similarity Measure

SHI Kan-sheng

, LIU Hai-tao

, BAI Yin-cai

, SONG Wen-tao

, and HONG Liang-liang

(1. College of Electronic and Electric Engineering, Shanghai Jiaotong University Xuhui Shanghai 200030;

2. China Incubating Center Hangzhou 310053)

Abstract The traditional K-means algorithm is widely used because of its simplicity and efficiency.

However, it is sensitive to the initial point and easy to fall into local optimum. In this paper, we use cosine measure

to evaluate the similarity between objects and construct a new fitness function of genetic algorithm and the new

convergence criterion for K-means algorithm. Experimental results show that the new method enhances the

clustering accuracy and stability for the combination of K-means and genetic algorithm.

Key words genetic algorithm; fitness function; K-means algorithm; similarity measurement; text

clustering

收稿日期：2011  08  29; 修回日期：2012  04  18

基金项目：国家自然科学基金(61073150)

作者简介：施侃晟(1966  )，男，教授，主要从事信息挖掘、云计算和物联网方面的研究.

文本聚类作为一种无监督的机器学习方法，由

于不需要训练过程及预先对文档手工标注类别，因

此具有一定的灵活性，已成为对中文文本信息进行

有效地组织、摘要和导航的重要手段，为越来越多

的研究人员所关注

[1]

。典型的文本聚类方法有多种，

其中K-均值算法因其简单和高效性，在文本聚类中

占有重要地位

[2]

，但它对聚类初始中心点的选取比

较敏感且易陷入局部最优，文献[3]提出了用语义信

息改善该问题的方法。目前，有研究者将遗传算法

和K-means算法相结合克服初始点敏感问题

[4-9]

。遗

传算法是一种通过模拟自然进化过程搜索最优解的

方法，它只需检测少量结构就可反映搜索空间较大

的区域，便于实时处理，同时具有较强的稳健性可

避免陷入局部最优。所以，K-均值与遗传算法的结

合是一种趋势。

本文进一步以余弦度量评价对象间的相似性，

并以此构造遗传算法的适应度函数、收敛准则来更

新遗传算法种群，提高了K-均值与遗传算法这种结

合方式的聚类精度和稳定性。

1 改进的文本聚类算法

针对K-均值与遗传算法相结合的趋势，给出新

的提高该种结合方式的聚类精度和稳定性的算法设

计和实际操作步骤。

1.1 相似性度量设计

聚类过程中，两个对象间的相似性计算是非常

重要的，相似性度量准则的优劣很大程度上影响了

聚类的效果。在向量空间模型下，可以借助向量之

间的某种距离表示文本间的相似度。目前研究者已

提出了许多方法来评价同一个特征空间中的两个对

象间的距离，然而并非所有的度量在各种情况下都

是适用的，如对象的数据类型是分类的和连续的情

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38535428

粉丝: 2
资源: 933

遗传算法与余弦度量优化的K-均值聚类方法

模糊聚类分析及其应用 电子书

模糊聚类分析算法的改进Matlab语言程序设计

SIMPRIM:用于设计适当的相似性度量和针对客户旅程进行聚类的框架

用个简单的小例子说明聚类分级聚类方法的过程

matlab kmeans改进聚类分析代码

简述K-均值聚类方法的优缺点。查阅资料，谈一谈可以从哪些方面对K均值进行改进。

怎么改进k-means聚类算法

pandas upgma用余弦距离衡量距离进行聚类

粒子群算法的适应度函数

kmeans聚类算法改进matlab

最新资源

模糊聚类分析及其应用电子书