第 1 章 绪论
1.1 研究背景
互联网自诞生以来就对各行业和人们的生活方式产生着深刻的影响,而今更甚,
网民规模在移动互联网兴起后更是发生了爆炸式的增长。根据 2017 年 1 月中国互联网
信息中心(CNNIC)发布的第 39 次《中国互联网发展状况统计报告》截至 2016 年 12
月,我国网民规模达亿,普及率达到 53.2%,超过全球平均水平个百分点,超过亚洲平
均水平个百分点[1]
。全年共计新增网民 4299 万人,增长率为 6.2%。中国网民规模已
经相当于欧洲人口总量。随着 2016 年度微博用户发展报告》显示,据 2016 年微博发布
的第三季度财报中显示,截止 2016 年 9 月 30 日,微博月活跃人数已达到亿,较 2015
年同期相比增长 34%;其中 9 月份移动端在 MAU 总量中的占比为 89%;9 月的日活跃
用户达到亿,较去年同期增长 32%。从以上数据可以看出新浪微博在网络意见汇聚和
传播中起了非常重要的作用,已经成为舆情发展的主要媒介。因此,微博热点可以作
为当前社会舆论热点的一个侧面体现。
截至 2016 年 12 月,中国的网页数量约为 2360 亿个,年增长 11.2%,数量较 2010
年增长了近四倍。面对如此海量的数据,传统的以人力驱动的文本挖掘系统其有限的
处理能力已不再适用。大数据技术的出现让我们对海量数据进行快速处理成为了可能,
其中 Apache Spark 是当前流行的大数据处理模型,具有快速、通用、简单等特点。
Spark 是针对 MapReduce 在迭代式机器学习算法和交互式数据挖掘等应用方面的低效
率,而提出的新的内存计算框架,既保留了 MapReduce 的可扩展性、容错性、兼容性,
又弥补了 MapReduce 在这些应用上的不足。
1.2 研究现状
文本挖掘技术
文本挖掘也称文本中的知识发现,是数据挖掘方法在文本数据集上的运用旨在从
大量非结构化的文本集合中挖掘信息、发现知识。它是一个跨学科的交叉研究领域,
涉及机器学习、自然语言处理、统计学等多个领域的知识和方法。近年来,随着数据
存储技术和互联网的不断发展,数据正以前所未有的速度迅速增长和积累,特别是社
交媒体的用户每天都在创造大量的文本信息。这些数据一定程度上记录了人们的行为
态度、交往过程和互动关系,为研究人们的社会化行为提供了新的可能。社会科学研
究方法是我们认识各种社会现象及事物的途径,是我们获取知识的重要方式。文本挖
掘可以利用机器学习、自然语言处理等计算机技术从大量文本数据中发现模式、规律、
趋势等,为学者以定量手段进行社会科学研究提供新的方法。社会计算的目的便在于
架起自然科学与社会科学之间的桥梁,借助计算机技术形成一套完整的社会科学定量
分析研究手段。基于此,文本挖掘在社会科学领域研究中的应用得到了学者们越来越
多的关注。相关研究表明,近年来国际上关于文本挖掘的研究论文呈不断上升趋势,
且主要集中在自然科学领域。