聚类驱动的网络舆情热点分析与发现系统

需积分: 0 95 浏览量更新于2024-08-05 收藏 405KB PDF 举报

"基于聚类的网络舆情热点发现及分析1" 本文主要探讨了如何利用聚类方法来实现网络舆情热点的发现与分析。网络舆情是指公众在网络空间中表达的观点、态度和情绪，这些信息对于政策制定、企业决策以及社会管理具有重要参考价值。随着互联网的普及，网络舆情的监测和分析变得越来越重要。首先，文章介绍了构建基于聚类的网络舆情热点发现及分析系统的步骤。这一系统的关键在于对网页文本的特征提取和向量空间模型的构建。特征提取是将网页内容转化为可计算的形式，这通常包括词汇频率、TF-IDF（词频-逆文档频率）等统计指标，以便计算机能够理解和处理文本信息。向量空间模型则是将每个网页表示为一个高维向量，其中每个维度对应一个特征词，向量的值表示该词在网页中的重要程度。接着，文章提到了使用OPTICS（Ordering Points To Identify the Clustering Structure）算法来获取网页热点簇。OPTICS是一种用于发现数据集中不同规模和形状聚类的密度基聚类算法，它能有效地处理噪声点和不规则分布的数据。通过这个算法，系统可以识别出那些包含大量相似信息的网页集合，即舆情热点。然后，为了进一步提高舆情分析的精确性，文章提出了二次聚类的概念。在获取了初步的热点簇后，系统会基于热点簇的特征向量对网页进行第二次聚类。这样可以细化热点，区分出不同的舆情子主题，揭示舆情的复杂结构和时间演变模式。二次聚类有助于提升舆情网页的相关度，使得分析结果更加准确且有深度。关键词：网络舆情热点发现、舆情分析、文本聚类，表明了本文的核心研究领域。网络舆情热点发现关注的是如何快速、准确地找到网络上的热点话题；舆情分析则涉及到对这些热点的深入理解和解读；而文本聚类是实现这些目标的技术手段，通过聚类可以有效地组织和理解大量的网络文本信息。最后，分类号G353.1可能指的是图书馆、情报与档案管理类，这暗示了该研究在信息获取、处理和应用方面的学术背景。而论文的英文摘要部分提供了更详细的国际视角，强调了系统对舆情时间演变模式的把握，以及为特定领域决策提供的支持。这篇文章提出了一个基于聚类的网络舆情热点发现与分析方法，通过特征提取、向量空间模型构建、OPTICS算法应用和二次聚类技术，实现了对网络舆情的高效、准确分析，为相关领域的研究提供了有力工具。

基于聚类的网

络舆情热点发现及分析

王伟许鑫

（华东师范大学信息学系上海２００２４１）

【摘要】根据对网络舆情分析的需求，构建出基于聚类的网络舆情热点发现及分析系统。通过对样本网页文本的

特征提取，构建向量空间模型，使用ＯＰＴＩＣＳ算法获取网页热点簇，根据热点簇特征向量对网页进行二次聚类，从

而获取关于舆情的时间演变模式，为相关领域研究提供决策支持。通过二次聚类，提高舆情网页相关度的质量，

使网络舆情分析更为准确可靠。

【关键词】网络舆情热点发现舆情分析文本聚类

【分类号】Ｇ３５３．１

Ｏｎｌｉｎｅ

Ｐｕｂｌｉｃ

Ｏｐｉｎｉｏｎ

Ｈｏｔｓｐｏｔ

Ｄｅｔｅｃｔｉｏｎ

ａｎｄ

Ａｎａｌｙｓｉｓ

Ｂａｓｅｄ

ｏｎ

Ｄｏｃｕｍｅｎｔ

Ｃｌｕｓｔｅｒｉｎｇ

Ｗａｎｇ

Ｗｅｉ

Ｘｕ

Ｘｉｎ

（Ｄｅｐａｒｔｍｅｎｔ

ｏｆ

Ｉｎｆｏｒｍａｔｉｃｓ，Ｅａｓｔ

Ｃｈｉｎａ

Ｎｏｒｍａｌ

Ｕｎｉｖｅｒｓｉｔｙ，Ｓｈａｎｇｈａｉ

２００２４１，Ｃｈｉｎａ）

【Ａｂｓｔｒａｃｔ】Ａｃｃｏｒｄｉｎｇ

ｔｏ

ｔｈｅ

ｒｅｑｕｉｒｅｍｅｎｔ

ｏｆ

ｏｎｌｉｎｅ

ｐｕｂｌｉｃ

ｏｐｉｎｉｏｎ

ａｎａｌｙｓｉｓ，ｔｈｉｓ

ｐａｐｅｒ

ｂｕｉｌｄｓ

ａｎ

ｏｎｌｉｎｅ

ｐｕｂｌｉｃ

ｏｐｉｎｉｏｎ

ｈｏｔｓｐｏｔ

ｄｅｔｅｃｔｉｏｎ

ａｎｄ

ａｎａｌｙｓｉｓ

ｓｙｓｔｅｍ

ｂａｓｅｄ

ｏｎ

ｄｏｃｕｍｅｎｔ

ｃｌｕｓｔｅｒｉｎｇ．Ｉｔ

ｂｕｉｌｄｓ

ｖｅｃｔｏｒ

ｓｐａｃｅ

ｍｏｄｅｌ

ｂｙ

ａｂｓｔｒａｃｔｉｎｇ

ｄｏｃｕｍｅｎｔ

ｆｅａｔｕｒｅｓ

ｆｒｏｍ

ｓａｍｐｌｅ

Ｗｅｂ

ｐａｇｅｓ，ａｎｄ

ｇｅｔ

ｔｈｅ

ｈｏｔ—ｓｐｏｔ

ｃｌｕｓｔｅｒ

ｂｙ

ＯＰＴＩＣＳ

ａｌｇｏｒｉｔｈｍ．Ａｃｃｏｒｄｉｎｇ

ｔｈｅ

ｖｅｃｔｏｒ

ｏｆ

ｈｏｔ—ｓｐｏｔ

ｃｌｕｓｔｅｒ，ｔｈｅ

Ｗｅｂ

ｐａｇｅｓ

ａｒｅ

ｃｌｕｓｔｅｒｅｄ

ｆｏｒ

ｔｈｅ

ｓｅｃｏｎｄ

ｔｉｍｅ．Ａｔ

ｌａｓｔ，ｉｔ

ｇｅｔｓ

ｔｈｅ

ｔｉｍｅ

ｅｖｏｌｕｔｉｏｎ

ｍｏｄｅ

ａｂｏｕｔ

ｔｈｅ

ｐｕｂｌｉｃ

ｏｐｉｎｉｏｎ

ｔｏ

ａｆｆｏｒｄ

ｄｅｃｉｓｉｏｎ

ｓｕｐｐｏｒｔ

ｆｏｒ

ｓｐｅｃｉｆｉｃ

ｆｉｅｌｄ，ａｎｄ

ｉｍｐｒｏｖｅｓ

ｔｈｅ

ｑｕａｌｉｔｙ

ｏｆ

ｐａｇｅ

ｃｏｒｒｅｌａｔｉｏｎ

ａｎｄ

ａｎａｌｙｚｅ

ｔｈｅ

ｐｕｂｌｉｃ

ｏｐｉｎｉｏｎ

ｍｏｒｅ

ａｃｃｕｒａｔｅｌｙ．

【Ｋｅｙｗｏｒｄｓ】Ｏｎｌｉｎｅ

ｐｕｂｌｉｃ

ｏｐｉｎｉｏｎＨｏｔｓｐｏｔ

ｄｅｔｅｃｔｉｏｎＰｕｂｌｉｃ

ｏｐｉｎｉｏｎ

ａｎａｌｙｓｉｓ

Ｄｏｃｕｍｅｎｔ

ｃｌｕｓｔｅｒｉｎｇ

１

引

言

随着互联网的日益普及，中国互联网络信息中心（ＣＮＮＩＣ）２００８年６月发布《第２２次中国互联网络发展状况

统计报告》数据显示：截至２００８年６月底，中国网民数量达到２．５３亿，网民规模跃居世界第一…。网络越来越成

为人们获取与发布信息的主要渠道，网络舆情信息的导向作用愈来愈大。网络信息庞杂多样，虽然对社会的发展

起了积极作用，但同时也产生了随之而来的信息内容安全问题，反动、淫秽、迷信等有害信息在网络中的传播，严

重危害了国家的安全和社会的稳定。另一方面，十六届四中全会做出的《中共中央关于加强党的执政能力建设的

决定》中提出，“建立舆情汇集和分析机制，畅通社情民意反映渠道”，反映了党对舆情研究重要性的认识。如何

在网络舆情信息采集的基础上进行舆情汇集，发现热点，并对关注热点加以跟踪分析，保障信息安全，引起了广泛

关注。

收稿日期：２００９一Ｏｌ一１２

收修改稿刚稠：２００９一０２一０２

·本文系教育部人文社会科学研究项目“互联网舆情信息分析与管理机制研究”（项目编号：０８ＪＣ８７０００３）的研究成果之一。

国疆现代图书情报技术

万方数据

下载后可阅读完整内容，剩余5页未读，立即下载

滕扬Lance

粉丝: 26
资源: 304

聚类驱动的网络舆情热点分析与发现系统

多维度社交网络舆情用户群体聚类分析方法研究.docx

基于co-ICIB联合聚类的舆情监测系统设计

基于大数据的网络舆情传播信息聚类监控研究.pdf

基于大数据的网络舆情传播信息聚类监控研究.zip

分布式K-means聚类在微博热点主题发现的应用.pdf

python083基于网易新闻+评论的舆情热点分析平台

微博网络中基于主题发现的舆情分析_彭浩-！1

微博舆情分析：自动抓取与聚类热点

基于关键词的网络舆情热点追踪算法

基于微博数据的K-means聚类与情感分析：舆情趋势揭示

最新资源