K-means改进算法在舆情监控系统中的应用

需积分: 9 79 浏览量更新于2024-08-11 2 收藏 791KB PDF 举报

"这篇论文是2011年发表在《宝鸡文理学院学报（自然科学版）》上的，作者黄美璇，主要探讨了基于聚类分析的网络舆情监控系统的构建及其关键技术，特别是对K-means算法的改进用于文本聚类和主题发现。" 在当前数字化时代，网络舆情监控系统扮演着重要的角色，它能够实时监测网络上的公众意见，为政府、企业和组织提供决策支持。这篇论文的主要目的是结合中文信息处理技术，设计这样一个系统，并解决网络舆情挖掘中的挑战。系统设计的关键在于有效提取和分析海量网络数据，包括网页、论坛、博客和新闻评论等。论文提出了一种针对K-means聚类算法的改进策略，以优化聚类初始值的选择和孤立点的剔除过程。在传统的K-means算法中，选择合适的初始聚类中心（或称为簇中心）对于最终聚类结果有很大影响，而孤立点的处理则会影响聚类的准确性和稳定性。作者通过改进算法，使得用户只需输入簇的初始个数k和最大值kmax，系统在运行过程中能自适应地确定最佳的聚类数量k。系统的工作流程包括网络资源的精确采集、网页净化、中文分词、向量模型建立、特征选择、降维处理以及文本聚类等步骤。中文分词是中文信息处理的基础，它将连续的汉字序列切分成具有语义意义的词组；向量模型建立和特征选择则将文本转换为可用于机器学习的数值表示，降维处理有助于减少计算复杂度，提高效率。文本聚类是关键，通过K-means改进算法，系统能够识别和归类不同主题的舆论信息。主题发现是舆情监控的核心，它有助于揭示隐藏在网络数据背后的公众关注点和趋势。论文的结论指出，虽然提出了改进算法和系统框架，但实际算法的实施和集成仍需进一步研究，以便开发出一套全自动的网络舆情信息采集、分析、监测和预警系统。这篇论文对网络舆情监控领域做出了贡献，提供了基于聚类分析的解决方案，尤其在K-means算法的优化上，为后续的网络舆情挖掘工作提供了理论和技术基础。未来的研究方向可能包括算法的优化、实时性提升以及更复杂的文本理解技术的应用。

宝鸡文理学院学报（自然科学版），第３１卷，第４期，第４０‐４４页，２０１１年１２月

ＪｏｕｒｎａｌｏｆＢａｏｊｉＵｎｉｖｅｒｓｉｔｙｏｆＡｒｔｓａｎｄＳｃｉｅｎｃｅｓ（ＮａｔｕｒａｌＳｃｉｅｎｃｅ），Ｖｏｌ．３１，Ｎｏ．４，

ｐｐ

．４０‐４４，Ｄｅｃ．２０１１

ＤＯＩ：ＣＮＫＩ：６１‐１２９０／Ｎ．２０１１１２１５．１６３１．００１

ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／６１．１２９０．Ｎ．２０１１１２１５．１６３１．００１．ｈｔｍｌ

基于聚类分析的网络舆情监控系统的设计

倡

黄美璇

（黎明职业大学机电工程系，福建泉州３６２０００）

摘　要：目的　结合中文信息处理技术，设计一个网络舆情监控系统；针对网络舆情挖掘研究中存

在的问题，提出了一种Ｋ‐ｍｅａｎｓ改进算法，实现Ｗｅｂ挖掘基础上的文本聚类与主题发现。方法　构建

一个基于聚类分析的网络舆情监控系统，并详细介绍系统各个模块用到的关键技术；提出了一种Ｋ‐

ｍｅａｎｓ改进算法，对Ｋ‐ｍｅａｎｓ算法中的关键环节（聚类初始值的选择和孤立点的剔除）进行了改进。结

果　设计的系统能通过对网页、论坛、博客、新闻评论等网络资源的精确采集，并结合网页净化、中文分

词、向量模型建立、特征选择、降维处理，文本聚类等中文信息处理技术，实现对网络舆情的监测；改进算

法的总体思路是要求用户输入簇的初始个数ｋ和最大值ｋ

ｍａｘ

，由改进算法在计算过程中自动计算出聚

类的结果数ｋ。结论　设计了一个基于聚类分析的网络舆情监控系统；提出了一种Ｋ‐ｍｅａｎｓ改进算法。

具体算法实施及将这些关键技术整合实现成一套自动化的网络舆情信息采集、分析、监测与预警系统，

是网络舆情挖掘研究工作的下一步重点。

关键词：舆情监控；Ｋ‐ｍｅａｎｓ；文本聚类；主题发现

中图分类号：ＴＰ３１１．１　　　文献标志码：Ａ　　　文章编号：１００７‐１２６１（２０１１）０４‐００４０‐０５

Ｔｈｅｄｅｓｉｇｎｏｆｔｈｅｎｅｔｗｏｒｋｐｕｂｌｉｃｏｐｉｎｉｏｎｍｏｎｉｔｏｒｉｎｇ

ｓｙｓｔｅｍｂａｓｅｄｏｎｃｌｕｓｔｅｒａｎａｌｙｓｉｓ

ＨＵＡＮＧＭｅｉ‐ｘｕａｎ

（ＥｌｅｃｔｒｉｃａｌａｎｄＭｅｃｈａｎｉｃａｌＥｎｇｉｎｅｅｒｉｎｇＣｏｌｌｅｇｅ，ＬｉｍｉｎｇＵｎｉｖｅｒｓｉｔｙ，Ｑｕａｎｚｈｏｕ３６２０００，Ｆｕｊｉａｎ，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ａｉｍ　ＴｏｄｅｓｉｇｎａｎｅｔｗｏｒｋｐｕｂｌｉｃｏｐｉｎｉｏｎｍｏｎｉｔｏｒｉｎｇｓｙｓｔｅｍｃｏｍｂｉｎｅｄｗｉｔｈＣｈｉｎｅｓｅｉｎ‐

ｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇａｎｄｔｏａｃｈｉｅｖｅｔｅｘｔｃｌｕｓｔｅｒａｎｄｔｈｅｍｅｄｉｓｃｏｖｅｒｙｂｙｉｎｔｒｏｄｕｃｉｎｇａｎｉｍｐｒｏｖｅｄＫ‐

ｍｅａｎｓａｐｐｒｏａｃｈｆｏｒｓｏｌｖｉｎｇｔｈｅｐｒｏｂｌｅｍｔｈａｔｅｘｉｓｔｓｉｎｔｈｅｓｔｕｄｙｏｆｎｅｔｗｏｒｋｐｕｂｌｉｃｏｐｉｎｉｏｎｍｉｎｉｎｇ．

Ｍｅｔｈｏｄｓ　ＡｎｉｍｐｒｏｖｅｄＫ‐ｍｅａｎｓａｐｐｒｏａｃｈｉｓｓｅｔｕｐｂｙｃｏｎｓｔｒｕｃｔｉｎｇｏｎｅｎｅｔｗｏｒｋｐｏｐｕｌａｒｆｅｅｌｉｎｇｓｓｕ‐

ｐ

ｅｒｖｉｓｏｒｙｓｙｓｔｅｍｂａｓｅｄｏｎｔｈｅｃｌｕｓｔｅｒａｎａｌｙｓｉｓ，ａｎｄｉｎｔｒｏｄｕｃｉｎｇｋｅｙｔｅｃｈｎｏｌｏｇｉｅｓｉｎｄｅｔａｉｌ，ａｎｄｔｈｅｋｅｙ

ｌｉｎｋｉｎＫ‐ｍｅａｎｓａｌｇｏｒｉｔｈｍ（ｔｈｅｃｌｕｓｔｅｒｓｔａｒｔｉｎｇｖａｌｕｅ＇ｓｃｈｏｉｃｅａｎｄｔｈｅｉｓｏｌａｔｅｄｐｏｉｎｔｒｅｊｅｃｔｉｏｎ）ｈａｓｂｅｅｎ

ｉｍｐｒｏｖｅｄ．Ｒｅｓｕｌｔｓ　Ｔｈｅｓｙｓｔｅｍｃａｎｍｏｎｉｔｏｒｎｅｔｗｏｒｋｐｕｂｌｉｃｏｐｉｎｉｏｎｓｂｙｇａｔｈｅｒｉｎｇｐｒｅｃｉｓｅｌｙｎｅｔｗｏｒｋ

ｒｅｓｏｕｒｃｅｓｌｉｋｅｗｅｂｐａｇｅｓ，ｆｏｒｕｍｓ，ｂｌｏｇｓａｎｄｎｅｗｓｃｏｍｍｅｎｔａｒｉｅｓａｎｄｃｏｍｂｉｎｉｎｇＣｈｉｎｅｓｅｉｎｆｏｒｍａｔｉｏｎ

ｐ

ｒｏｃｅｓｓｉｎｇｔｅｃｈｎｏｌｏｇｙｓｕｃｈａｓｗｅｂｐａｇｅｐｕｒｉｆｉｃａｔｉｏｎ，Ｃｈｉｎｅｓｅｗｏｒｄｓｅｇｍｅｎｔａｔｉｏｎ，ｅｓｔａｂｌｉｓｈｏｆｖｅｃｔｏｒ

ｍｏｄｅｌ，ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ，ｄｉｍｅｎｓｉｏｎａｌｉｔｙｒｅｄｕｃｔｉｏｎａｎｄｔｅｘｔｃｌｕｓｔｅｒｉｎｇ．Ｔｈｅｇｅｎｅｒａｌｉｄｅａｏｆｔｈｅｉｍ‐

ｐ

ｒｏｖｅｄａｌｇｏｒｉｔｈｍｉｓｔｈａｔｔｈｅｉｍｐｒｏｖｅｄａｌｇｏｒｉｔｈｍｃａｎａｕｔｏｍａｔｉｃａｌｌｙｃｏｍｐｕｔｅｔｈｅｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｋａｆ‐

ｔｅｒｕｓｅｒｓｉｎｐｕｔｔｈｅｉｎｉｔｉａｌｎｕｍｂｅｒｋｏｆｔｈｅｃｌｕｓｔｅｒａｎｄｍａｘｉｍｕｍｖａｌｕｅｋ

ｍａｘ

．Ｃｏｎｃｌｕｓｉｏｎ　Ｂａｓｅｄｏｎｔｈｅ

ｃｌｕｓｔｅｒａｎａｌｙｓｉｓ，ａｎｅｔｗｏｒｋｐｕｂｌｉｃｏｐｉｎｉｏｎｍｏｎｉｔｏｒｉｎｇｓｙｓｔｅｍｉｓｄｅｓｉｇｎｅｄａｎｄａｎｉｍｐｒｏｖｅｄＫ‐ｍｅａｎｓａｐ‐

倡

收稿日期：２０１１‐０９‐０７，修回日期：２０１１‐１０‐１６，网络出版时间：２０１１‐１２‐１５１６：３１

基金项目：黎明职业大学２０１０年度研究规划课题（ＬＺ２０１００２）

作者简介：黄美璇（１９８２‐），女，福建泉州人，讲师，硕士，研究方向：数据库技术、数据挖掘．Ｅｍａｉｌ：ｆｌｏｗｅｒｈｍｘ＠１６３．ｃｏｍ

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38627769

粉丝: 4
资源: 920

K-means改进算法在舆情监控系统中的应用

基于聚类的网络舆情热点发现及分析1

基于聚类分析方法的电力系统负荷节点分区策略.pdf

文本聚类算法在舆情监控中的应用分析

基于co-ICIB联合聚类的舆情监测系统设计

基于聚类分析与神经网络的电力系统负荷预测.pdf

基于大数据的网络舆情传播信息聚类监控研究.pdf

基于大数据的网络舆情传播信息聚类监控研究.zip

基于聚类分析的网络安全态势评估方法.pdf

基于PCA聚类分析的神经网络模型设计与应用.pdf

基于聚类分析决策规则分类器设计，主要内容包括 KMeans聚类分析+分级聚类分析,用matlab语言进行编写代码，matlab7.1版本

最新资源