基于Spark的Web文本挖掘系统研究与实现 - 新浪微博舆情热点分析

版权申诉

83 浏览量更新于2024-04-06 收藏 564KB DOC 举报

本文针对互联网网页爆发式增长的情况，以新浪微博舆情热点为例，基于Spark并行计算框架构建了一套Web文本挖掘系统，以提高文本数据处理的效率和准确性。首先介绍了大数据技术的兴起和Hadoop、Spark的特点，然后详细阐述了系统的设计与实现过程。系统主要包括知识准备和技术了解、网络爬虫、挖掘工具等几个部分，通过对系统的整体流程和各个技术模块的介绍，展示了基于Spark的Web文本挖掘系统的研究与实现。本文的研究背景是通信技术和电子技术的高速发展带来了互联网网页数量的爆发式增长，为了从庞大的互联网文本数据集中提取有价值信息，需要一种高效处理手段替代传统的人工处理方法。近年来，大数据技术如Hadoop和Spark开始兴起，为海量数据的存储和处理提供了新的解决方案。特别是Spark内存计算和实时计算能力的优势，使其成为文本挖掘系统的理想选择，能够更高效地处理大规模数据。在系统开发的知识准备和技术了解部分，本文首先介绍了Web文本挖掘的基本概念和通用流程，为后续的系统设计和实现提供了理论基础。随后按照整个系统的处理流程，对各个部分设计的技术进行了详细介绍。网络爬虫模块负责从网络上抓取数据，挖掘工具则用于对文本数据进行处理和分析，从而实现信息提取和舆情分析的功能。每个模块都充分利用了Spark并行计算框架的特点，提高了系统的运行效率和性能。通过对新浪微博等网站的数据进行实验验证，本系统取得了良好的效果，能够快速准确地提取有价值的信息，为用户提供决策支持和舆情监测等服务。未来还可以进一步完善系统功能，拓展应用领域，提升系统的稳定性和可维护性，以满足不断增长的数据处理需求。综上所述，基于Spark的Web文本挖掘系统的研究与实现利用了大数据技术的优势，通过并行计算加速了文本数据处理过程，提高了系统的效率和准确性。该系统为处理海量文本数据提供了一种高效可靠的解决方案，具有广泛的应用前景和市场潜力。

第 1 章绪论

1.1 研究背景

互联网自诞生以来就对各行业和人们的生活方式产生着深刻的影响，而今更甚，

网民规模在移动互联网兴起后更是发生了爆炸式的增长。根据 2017 年 1 月中国互联网

信息中心（CNNIC）发布的第 39 次《中国互联网发展状况统计报告》截至 2016 年 12

月，我国网民规模达亿，普及率达到 53.2%，超过全球平均水平个百分点，超过亚洲平

均水平个百分点[1]

。全年共计新增网民 4299 万人，增长率为 6.2%。中国网民规模已

经相当于欧洲人口总量。随着 2016 年度微博用户发展报告》显示，据 2016 年微博发布

的第三季度财报中显示，截止 2016 年 9 月 30 日，微博月活跃人数已达到亿，较 2015

年同期相比增长 34%；其中 9 月份移动端在 MAU 总量中的占比为 89%；9 月的日活跃

用户达到亿，较去年同期增长 32%。从以上数据可以看出新浪微博在网络意见汇聚和

传播中起了非常重要的作用，已经成为舆情发展的主要媒介。因此，微博热点可以作

为当前社会舆论热点的一个侧面体现。

截至 2016 年 12 月，中国的网页数量约为 2360 亿个，年增长 11.2%，数量较 2010

年增长了近四倍。面对如此海量的数据，传统的以人力驱动的文本挖掘系统其有限的

处理能力已不再适用。大数据技术的出现让我们对海量数据进行快速处理成为了可能，

其中 Apache Spark 是当前流行的大数据处理模型，具有快速、通用、简单等特点。

Spark 是针对 MapReduce 在迭代式机器学习算法和交互式数据挖掘等应用方面的低效

率，而提出的新的内存计算框架，既保留了 MapReduce 的可扩展性、容错性、兼容性，

又弥补了 MapReduce 在这些应用上的不足。

1.2 研究现状

文本挖掘技术

文本挖掘也称文本中的知识发现，是数据挖掘方法在文本数据集上的运用旨在从

大量非结构化的文本集合中挖掘信息、发现知识。它是一个跨学科的交叉研究领域，

涉及机器学习、自然语言处理、统计学等多个领域的知识和方法。近年来，随着数据

存储技术和互联网的不断发展，数据正以前所未有的速度迅速增长和积累，特别是社

交媒体的用户每天都在创造大量的文本信息。这些数据一定程度上记录了人们的行为

态度、交往过程和互动关系，为研究人们的社会化行为提供了新的可能。社会科学研

究方法是我们认识各种社会现象及事物的途径，是我们获取知识的重要方式。文本挖

掘可以利用机器学习、自然语言处理等计算机技术从大量文本数据中发现模式、规律、

趋势等，为学者以定量手段进行社会科学研究提供新的方法。社会计算的目的便在于

架起自然科学与社会科学之间的桥梁，借助计算机技术形成一套完整的社会科学定量

分析研究手段。基于此，文本挖掘在社会科学领域研究中的应用得到了学者们越来越

多的关注。相关研究表明，近年来国际上关于文本挖掘的研究论文呈不断上升趋势，

且主要集中在自然科学领域。

剩余29页未读，继续阅读

猫一样的女子245

粉丝: 230
资源: 2万+

基于Spark的Web文本挖掘系统研究与实现 - 新浪微博舆情热点分析

基于Spark的Web文本挖掘系统的研究与实现beta2副本.doc

基于Spark的Web文本挖掘系统的研究与实现-beta2 - 副本.zip

基于Spark的Web文本挖掘系统的研究与实现-beta2 - 副本.docx

基于Spark的Web文本挖掘系统的研究与实现-beta2 - 副本-论文.zip

基于Spark的Web文本挖掘系统的研究与实现-beta2 - 副本(1).zip

基于Spark的Web文本挖掘系统的研究与实现_张馨允.caj

Spark Web文本挖掘系统研究与实现

Spark Web文本挖掘系统研究与实现分析

"基于Spark的高效Web文本挖掘系统研究与实现

基于Spark的Web文本挖掘系统的研究与实现摘要

最新资源