基于Spark的Web文本挖掘系统的研究与实现摘要

需积分: 9 33 浏览量更新于2024-01-28 1 收藏 367KB DOCX 举报

本文讨论了基于Spark的Web文本挖掘系统的研究与实现。随着通信技术与电子技术的高速发展，互联网的网页数量呈现爆发式增长。为了从庞大的互联网文本数据集中提取有价值信息，人们需要一种高效的处理手段，以取代传统的人工数据处理方法。近年来，大数据技术如Hadoop和Spark日益兴起，为海量数据的存储和处理提供了新思路和技术支持。本文选择了并行计算框架Spark作为文本挖掘系统的实现工具，构建了一个面向新浪微博舆情热点的Web文本挖掘系统。主要工作可以分为以下几个部分：首先，在系统开发的知识准备和技术了解部分，对Web文本挖掘的基本概念和通用流程进行了研究和介绍。了解了文本挖掘的基本原理和方法，为后续的系统设计和实现提供了理论基础。其次，根据整个系统的处理流程，对各个部分设计的技术进行了分别介绍。这些部分包括网络爬虫和挖掘。网络爬虫负责从互联网上爬取大量网页数据，而挖掘技术则负责从这些数据中提取出有价值的信息。本文详细介绍了这些技术的原理和实现方式，以及各自的优缺点。在实现过程中，本文选取了并行计算框架Spark作为文本挖掘的工具。相比于Hadoop，Spark采用基于内存的计算方式，具备更高的处理效率，并且支持实时计算和交互式数据访问，克服了Hadoop在这些应用中的不足。借助Spark的强大功能，我们可以更高效地进行文本挖掘。最后，本文构建了一个针对新浪微博舆情热点的Web文本挖掘系统。该系统可以从新浪微博中提取出与舆情相关的热点话题，并对其进行分析和展示。通过对用户发表的微博进行情感分析和主题提取，系统可以洞察用户群体的情绪和关注点，从而为企业和政府决策提供重要参考。总结来说，本文利用Spark构建了一个基于Web的文本挖掘系统，针对新浪微博的舆情热点进行了研究和实现。通过对大量的互联网文本数据进行挖掘和分析，系统可以帮助人们从中提取有价值的信息。同时，本文还介绍了文本挖掘的基本概念和流程，并详细讨论了其中所涉及的技术和工具。通过本研究，我们对Web文本挖掘有了更深入的认识，也为未来的研究和应用提供了基础。

第 1 章绪论

1.1 研究背景

互联网自诞生以来就对各行业和人们的生活方式产生着深刻的影响，而今更甚，

网民规模在移动互联网兴起后更是发生了爆炸式的增长。根据 2017 年 1 月中国互联网

信息中心（CNNIC）发布的第 39 次《中国互联网发展状况统计报告》截至 2016 年 12

月，我国网民规模达亿，普及率达到 53.2%，超过全球平均水平个百分点，超过亚洲

平均水平个百分点[1]。全年共计新增网民 4299 万人，增长率为 6.2%。中国网民规模

已经相当于欧洲人口总量。随着 2016 年度微博用户发展报告》显示，据 2016 年微博

发布的第三季度财报中显示，截止 2016 年 9 月 30 日，微博月活跃人数已达到亿，较 2015

年同期相比增长 34%；其中 9 月份移动端在 MAU 总量中的占比为 89%；9 月的日活

跃用户达到亿，较去年同期增长 32%。从以上数据可以看出新浪微博在网络意见汇聚

和传播中起了非常重要的作用，已经成为舆情发展的主要媒介。因此，微博热点可以

作为当前社会舆论热点的一个侧面体现。

截至 2016 年 12 月，中国的网页数量约为 2360 亿个，年增长 11.2%，数量较 2010

年增长了近四倍。面对如此海量的数据，传统的以人力驱动的文本挖掘系统其有限的

处理能力已不再适用。大数据技术的出现让我们对海量数据进行快速处理成为了可能，

其中 Apache Spark 是当前流行的大数据处理模型，具有快速、通用、简单等特点。Spark

是针对 MapReduce 在迭代式机器学习算法和交互式数据挖掘等应用方面的低效率，而

提出的新的内存计算框架，既保留了 MapReduce 的可扩展性、容错性、兼容性，又弥

补了 MapReduce 在这些应用上的不足。

1.2 研究现状

文本挖掘技术

文本挖掘也称文本中的知识发现，是数据挖掘方法在文本数据集上的运用旨在从

大量非结构化的文本集合中挖掘信息、发现知识。它是一个跨学科的交叉研究领域，

涉及机器学习、自然语言处理、统计学等多个领域的知识和方法。近年来，随着数据

存储技术和互联网的不断发展，数据正以前所未有的速度迅速增长和积累，特别是社

交媒体的用户每天都在创造大量的文本信息。这些数据一定程度上记录了人们的行为

态度、交往过程和互动关系，为研究人们的社会化行为提供了新的可能。社会科学研

究方法是我们认识各种社会现象及事物的途径，是我们获取知识的重要方式。文本挖

掘可以利用机器学习、自然语言处理等计算机技术从大量文本数据中发现模式、规律、

趋势等，为学者以定量手段进行社会科学研究提供新的方法。社会计算的目的便在于

架起自然科学与社会科学之间的桥梁，借助计算机技术形成一套完整的社会科学定量

分析研究手段。基于此，文本挖掘在社会科学领域研究中的应用得到了学者们越来越

多的关注。相关研究表明，近年来国际上关于文本挖掘的研究论文呈不断上升趋势，

且主要集中在自然科学领域。

王继成、潘金贵、张福炎于 2000 年在论文《web 文本挖掘技术研究》中提出了一

种才用多个 agent 体系结构的 web 文本挖掘系统原型 Web Miner.Web Miner。将多维文

本分析与文本挖掘这两种技术有机地结合起来 ,以帮助用户快速、有效地挖掘 Web 上

的 HTML 文档。

陈建华、包煊于 2010 年在论文《Web 挖掘系统的设计与实现》中从文本挖掘定义、

挖掘任务、挖掘分类等方面介绍了挖掘理论。在分词中采用了近邻法来减少训练样本

集中的样本数量来加快算法的执行速度。

胡健、杨炳儒等人于 2008 年在论文《基于非结构化数据挖掘结构模型的 Web 文

本聚类算法》中提出了一种新的 Web 文本聚类算法——基于 DFSSM 的 Web 文本聚类

(WTCDFSSM)算法。该算法可以对各类远程教育站点上收集的文本资料信息自动进行

聚类挖掘;采用网格结构模型,帮助人们进行文本信息导航;从海量文本信息源中快速有

效地获取重要的知识。

黄晓斌、赵超于 2009 年在论文《文本挖掘在网络舆情信息分析中的应用》中介绍

了网络舆情的特点与作用,分析了文本挖掘技术的主要功能,提出网络舆情信息挖掘分

析模型,并以实例说明文本挖掘在网络舆情分析中的应用。

大数据处理技术

当今时代是一个信息爆炸的时代，每时每刻都有大量的数据被生产、搬运和应用。

为了解决原来越多海量数据的专业化、规模化加工问题，挖掘数据蕴藏的价值，大数

据处理技术应运而生。初代大数据并行处理框架 Hadoop 应用最为广泛，但是随着大数

据领域的研究和实践不断的深入，也暴露出一些问题，如不适合低延迟数据访问、不

能进行迭代式数据处理等缺点。Spark 基于内存计算，自 2013 年成为 Apache 基金项目

后高速发展，凭借其高效的数据处理能力和对实时、交互式数据访问的支持逐渐成为

新一代的大数据处理引擎。其最新版本 Spark 的机器学习库中包含了丰富的数据挖掘

相关算法，如 LDA，聚类算法 K-means、分类算法朴素贝叶斯等。能够轻松应归常规

的大规模文本挖掘场景，并具有很好的效果和很高的效率。但是，作为一种新兴的技

术，面对多元的复杂的文本挖掘需求，还是有一定改进的空间。

1.3 文章的内容及意义

本文的主要内容包括了以下几点：

介绍了文本挖掘的含义以及具体的实现过程，并特别针对社交网站的文本挖掘的

相关知识进行了学习和研究，包括了高效的用于新浪微博文本数据采集的网络爬虫技

术，用于文本挖掘处理的大数据处理技术以及对挖掘结果进行直观展示的数据可视化

剩余31页未读，继续阅读

智慧安全方案

粉丝: 3857

基于Spark的Web文本挖掘系统的研究与实现摘要

python-docx-0.8.10.tar.gz

python_docx-0.8.10-py2.py3-none-any.whl

基于微信公众号的就业管理系统设计与实现-.docx

windows python-docx-0.8.11.tar.gz

python-docx-0.8.11.tar.gz

python_docx-0.8.6-py2.py3-none-any.whl

python-docx-0.8.11.whl下载

html-docx.min.js线上引入地址

vue-quill-editor文件上传.docx格式

最新资源