K-means改进算法在舆情监控系统中的应用

需积分: 9 2 下载量 79 浏览量 更新于2024-08-11 2 收藏 791KB PDF 举报
"这篇论文是2011年发表在《宝鸡文理学院学报(自然科学版)》上的,作者黄美璇,主要探讨了基于聚类分析的网络舆情监控系统的构建及其关键技术,特别是对K-means算法的改进用于文本聚类和主题发现。" 在当前数字化时代,网络舆情监控系统扮演着重要的角色,它能够实时监测网络上的公众意见,为政府、企业和组织提供决策支持。这篇论文的主要目的是结合中文信息处理技术,设计这样一个系统,并解决网络舆情挖掘中的挑战。系统设计的关键在于有效提取和分析海量网络数据,包括网页、论坛、博客和新闻评论等。 论文提出了一种针对K-means聚类算法的改进策略,以优化聚类初始值的选择和孤立点的剔除过程。在传统的K-means算法中,选择合适的初始聚类中心(或称为簇中心)对于最终聚类结果有很大影响,而孤立点的处理则会影响聚类的准确性和稳定性。作者通过改进算法,使得用户只需输入簇的初始个数k和最大值kmax,系统在运行过程中能自适应地确定最佳的聚类数量k。 系统的工作流程包括网络资源的精确采集、网页净化、中文分词、向量模型建立、特征选择、降维处理以及文本聚类等步骤。中文分词是中文信息处理的基础,它将连续的汉字序列切分成具有语义意义的词组;向量模型建立和特征选择则将文本转换为可用于机器学习的数值表示,降维处理有助于减少计算复杂度,提高效率。 文本聚类是关键,通过K-means改进算法,系统能够识别和归类不同主题的舆论信息。主题发现是舆情监控的核心,它有助于揭示隐藏在网络数据背后的公众关注点和趋势。论文的结论指出,虽然提出了改进算法和系统框架,但实际算法的实施和集成仍需进一步研究,以便开发出一套全自动的网络舆情信息采集、分析、监测和预警系统。 这篇论文对网络舆情监控领域做出了贡献,提供了基于聚类分析的解决方案,尤其在K-means算法的优化上,为后续的网络舆情挖掘工作提供了理论和技术基础。未来的研究方向可能包括算法的优化、实时性提升以及更复杂的文本理解技术的应用。