改进k-means算法:文本聚类中的特征选择与初始中心优化
需积分: 4 182 浏览量
更新于2024-08-01
收藏 2.83MB PDF 举报
本文主要探讨了基于K-means的算法在中文文本聚类领域的研究与实现,特别是在处理高维性和稀疏性文本数据时所遇到的挑战。作者张睿,作为一名硕士研究生,专业为计算机软件与理论,选择了西北大学作为研究背景,导师为刘晓霞。
K-means算法因其时间复杂度较低,被广泛应用于机器学习和数据挖掘,包括文本聚类任务。然而,文本数据的特点,如词汇的丰富性和大量冗余,导致了数据的高维度和稀疏性,这使得计算文本对象之间的相似度变得困难,从而可能影响聚类中心的选择。原始的K-means算法在初始化阶段可能会选取到不能充分代表整个文本集的聚类中心。
针对这个问题,作者提出了改进的初始聚类中心选择方法,通过考虑文本间的相似度,试图找到更分散且更具代表性的聚类中心。这涉及到对特征选择的优化,特别是在没有类信息的情况下,通过结合文档频率和单词贡献度的特征选择方法,利用贪心算法逐步筛选出最具区分力的特征词,从而提高聚类的质量。
此外,作者还对经典的Bisecting K-means算法进行了改进,引入了共享最近邻相似度的概念,旨在提高簇的整体质量。实验结果显示,这种改进后的算法在聚类效果上有所提升。
论文的核心成果是实现了一个基于K-means的中文文本聚类原型系统,对其中的算法进行了评估和比较。通过实际应用,验证了改进策略的有效性和实用性。关键词包括文本聚类、K-means算法、Bisecting K-means算法以及共享最近邻等,这些都体现了作者对文本数据分析深入理解和创新实践的努力。
本文对于K-means算法在文本聚类中的局限性进行了深入剖析,并通过优化特征选择和改进聚类中心初始化策略,提高了文本聚类的性能,为文本挖掘领域的研究提供了有价值的新思路和技术支持。
2019-08-15 上传
2023-06-19 上传
2023-07-07 上传
2021-09-29 上传
2021-04-13 上传
2021-01-27 上传
2021-09-28 上传
2022-11-06 上传
nanaliv
- 粉丝: 3
- 资源: 5
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能