Hadoop MapReduce实现的网络热点话题快速发现

需积分: 9 16 浏览量更新于2024-08-08 收藏 501KB PDF 举报

"基于MapReduce架构的网络热点话题发现 (2012年)，徐雅斌等人发表在《华中科技大学学报(自然科学版)》的一篇论文，研究了利用开源云计算平台Hadoop进行网络热点话题发现的方法。该方法通过命名实体词作为文本特征，采用标题和正文的双向量表示，利用MapReduce进行分布式并行计算，从而有效处理海量数据，提高话题聚类速度。论文还提到，随着参与并行计算的节点数增加，话题聚类的时间显著下降。" 这篇论文深入探讨了如何利用现代大数据处理技术来挖掘互联网上的热点话题。MapReduce是一种由Google提出的编程模型，专门用于大规模数据集的并行计算。在本文中，MapReduce被用作处理和分析网络数据的基础架构，特别是对于识别和跟踪网络上的热点话题至关重要。首先，作者强调了使用开源云计算平台Hadoop的重要性。Hadoop是实现MapReduce的流行框架，能够处理PB级别的数据，适合处理网络环境中产生的海量信息。通过Hadoop，研究人员能够构建可扩展的系统，以处理复杂的数据分析任务。然后，论文提出了一个关键的特征提取策略，即使用命名实体词作为文本的特征项。命名实体识别（NER）是自然语言处理的一个分支，能识别出文本中的专有名词，如人名、地名和组织名等。这些实体可以提供上下文信息，帮助区分不同的话题，尤其是在新闻、社交媒体和其他网络内容中。接着，论文采用了标题和正文的双向量表示法。这种方法结合了文本的结构信息，不仅考虑了标题的概括性，还考虑了正文的详细内容，这有助于更准确地理解文本的主题。实验部分展示了随着参与并行计算的节点数增加，话题聚类的效率显著提高。这意味着，当系统资源增加时，可以更快地完成对大量文本数据的分析，及时发现和更新网络热点。这对于实时监控网络舆情、事件追踪以及信息挖掘等领域具有重要意义。这篇论文贡献了一种有效且可扩展的网络热点话题发现方法，结合了MapReduce的分布式计算优势和命名实体识别的语义理解能力，为大数据环境下的信息处理提供了有价值的参考。

第40卷增刊 Ⅰ

2012年 12月

华中科技大学学报 (自然科学版)

J .Huazhong Univ .of Sci .& Tech .(Natural Science Edition)

Vol .40 Sup .Ⅰ

Dec . 2012

收稿日期 2012-08-20 .

作者简介徐雅斌(1962-) ,男 ,教授 ,E-mail :xyb@ bistu .edu .cn .

基金项目北京市教委科研资助项目 (SQKM201211232012) ;网络文化与数字传播北京市重点实验室资助项目

(ICDD201106) .

基于 MapReduce 架构的网络热点话题发现

徐雅斌

a ,b

李艳平

a ,b

郑芬

(北京信息科技大学 a 计算机学院 ;

b 网络文化与数字传播北京市重点实验室 ,北京 100101)

摘要提出了一种基于开源云计算平台 Hadoop 的网络热点话题发现方案 .该方案采用 MapReduce 分布式

并行计算架构处理海量、复杂数据 ,通过将命名实体词作为文本的特征项 ,并采用标题和正文的双向量表示文

本 .实验结果表明 :随着参与并行计算节点数的增加 ,话题聚类所有的时间显著下降 ,因而网络热点话题发现

的速度得到明显提高 .

关键词网络舆情分析 ;网络热点话题发现 ;分布式并行计算 ;MapReduce 架构 ;文本聚类

中图分类号 T P393 文献标志码 A 文章编号 1671-4512(2012)S1-0236-04

Internet hot topic founding based on MapReduce architecture

X u Y abin

a ,b

L i Y an

ing

a ,b

Zhen

Fen

(a School of Computer ;b Beijing Key Laboratory of Internet Culture and Digital Dissemination

Research ,Beijing Information Science and Technology University ,Beijing 100101)

Abstract An internet hot topic founding scheme was proposed in this paper based on cloud computing

latform .MapReduce distributed parallel computing architecture was used to deal with massive and

complex data .This scheme used named entity words as text features ,and took title and body as two-

dimensional vector to represent text .The experimental results show that with the increase of nodes

articipating in parallel computing ,the time of topic clustering significantly decreases ,therefore ,the

speed of netw ork hot topic founding markedly improves .

Key words internet public opinion analysis ;internet hot topic founding ;distributed parallel compu-

ting ;MapReduce architecture ;text clustering

截止到 2012 年 6 月底 ,中国上网人数达到了

5 .38 亿

[1]

.互联网已经成为信息传播的主要手段

之一 .其影响范围日趋扩大 ,时效性日益增强 ,已

经成为最具发展潜力的主流媒体 ,正在逐渐成为

反映社会舆情的主要载体之一 .

因此 ,非常有必要对互联网应用中分别排名

第 4 和第 5 的网络新闻和博客(微博)中的信息进

行“数字化”处理与分析 ,以便政府和企业能够快

速和及时发现新的舆论情绪 ,并始终关注舆情的

发展态势和可能的不良倾向 ,以便进一步进行舆

论引导和对事态的把握和控制 .为此本文提出了

一种基于开源云计算平台 Hadoop 的网络热点话

题发现方案 .

1 网络舆情及相关定义

网络舆情通常是指通过互联网传播的、公众

针对某些普遍关注的热点问题所持有的具有较强

影响力和倾向性的观点和言论 ,也是民众讨论的

焦点 ,它能够集中反映一个时期的舆论倾向

[2]

互联网空间的开放性和虚拟性 ,决定了网络

舆情具有直接性、随意性、多元性、突发性、隐蔽性

和偏差性

[3]

这样几个特性 .这些特性决定了网络

舆情分析工作具有数据量大、重复度高、实时性强

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38553431

粉丝: 6
资源: 897

Hadoop MapReduce实现的网络热点话题快速发现

基于MapReduce的商品推荐算法.zip

基于MapReduce实现决策树算法

基于MapReduce架构的就地化分布式母线保护研究.pdf

论文研究-基于MapReduce架构的并行矩阵Apriori算法.pdf

MapReduce架构

基于MapReduce的快速Newman并行算法 (2012年)

基于Hadoop的MapReduce架构研究.docx

Hadoop MapReduce架构

基于Hadoop的MapReduce架构编写的KNN算法.zip

基于MapReduce框架下的复杂网络社团发现算法

最新资源