改进k-means算法:文本聚类中的特征选择与初始中心优化
需积分: 4 134 浏览量
更新于2024-08-01
收藏 2.83MB PDF 举报
本文主要探讨了基于K-means的算法在中文文本聚类领域的研究与实现,特别是在处理高维性和稀疏性文本数据时所遇到的挑战。作者张睿,作为一名硕士研究生,专业为计算机软件与理论,选择了西北大学作为研究背景,导师为刘晓霞。
K-means算法因其时间复杂度较低,被广泛应用于机器学习和数据挖掘,包括文本聚类任务。然而,文本数据的特点,如词汇的丰富性和大量冗余,导致了数据的高维度和稀疏性,这使得计算文本对象之间的相似度变得困难,从而可能影响聚类中心的选择。原始的K-means算法在初始化阶段可能会选取到不能充分代表整个文本集的聚类中心。
针对这个问题,作者提出了改进的初始聚类中心选择方法,通过考虑文本间的相似度,试图找到更分散且更具代表性的聚类中心。这涉及到对特征选择的优化,特别是在没有类信息的情况下,通过结合文档频率和单词贡献度的特征选择方法,利用贪心算法逐步筛选出最具区分力的特征词,从而提高聚类的质量。
此外,作者还对经典的Bisecting K-means算法进行了改进,引入了共享最近邻相似度的概念,旨在提高簇的整体质量。实验结果显示,这种改进后的算法在聚类效果上有所提升。
论文的核心成果是实现了一个基于K-means的中文文本聚类原型系统,对其中的算法进行了评估和比较。通过实际应用,验证了改进策略的有效性和实用性。关键词包括文本聚类、K-means算法、Bisecting K-means算法以及共享最近邻等,这些都体现了作者对文本数据分析深入理解和创新实践的努力。
本文对于K-means算法在文本聚类中的局限性进行了深入剖析,并通过优化特征选择和改进聚类中心初始化策略,提高了文本聚类的性能,为文本挖掘领域的研究提供了有价值的新思路和技术支持。
2019-08-15 上传
2023-06-19 上传
2023-07-07 上传
2021-09-29 上传
2021-04-13 上传
2021-01-27 上传
2021-09-28 上传
2022-11-06 上传
nanaliv
- 粉丝: 3
- 资源: 5
最新资源
- JHU荣誉单变量微积分课程教案介绍
- Naruto爱好者必备CLI测试应用
- Android应用显示Ignaz-Taschner-Gymnasium取消课程概览
- ASP学生信息档案管理系统毕业设计及完整源码
- Java商城源码解析:酒店管理系统快速开发指南
- 构建可解析文本框:.NET 3.5中实现文本解析与验证
- Java语言打造任天堂红白机模拟器—nes4j解析
- 基于Hadoop和Hive的网络流量分析工具介绍
- Unity实现帝国象棋:从游戏到复刻
- WordPress文档嵌入插件:无需浏览器插件即可上传和显示文档
- Android开源项目精选:优秀项目篇
- 黑色设计商务酷站模板 - 网站构建新选择
- Rollup插件去除JS文件横幅:横扫许可证头
- AngularDart中Hammock服务的使用与REST API集成
- 开源AVR编程器:高效、低成本的微控制器编程解决方案
- Anya Keller 图片组合的开发部署记录