基于Scrapy-Redis的微博数据爬虫与分析

需积分: 0 6 浏览量更新于2024-06-30 收藏 5.7MB DOCX 举报

"这篇论文探讨了在网络大数据时代背景下，如何利用网络爬虫技术应对信息量急剧膨胀的问题。文章以Python2.7和Scrapy框架，结合Scrapy-Redis分布式框架，设计并实现了针对‘新浪微博’的高并发、强鲁棒性的网络爬虫，对抓取的数据进行了初步分析。" 在大数据信息时代，网络爬虫技术的重要性日益凸显。网络爬虫作为一种自动收集网页信息的工具，其灵活性和高效性使其成为处理海量数据的主要手段。随着互联网上的信息量以惊人的速度增长，传统的爬虫技术面临着如何有效、快速地采集和处理这些数据的挑战。论文主要围绕以下几个方面展开： 1. 爬虫技术基础：介绍了爬虫的基本原理，包括网页抓取、链接解析和数据存储等环节，以及当前爬虫技术的发展状况。特别提到了Cookie池和user-agent欺骗作为突破网站访问限制的策略，以及信息过滤和搜索策略在爬虫中的应用。 2. Scrapy-Redis分布式爬虫：基于Python的Scrapy框架，结合Redis内存数据库，构建了分布式爬虫系统。Redis在这里用于实现去重、任务调度、提升爬取速度和“断点续爬”的功能。同时，论文还讨论了MongoDB等NoSQL数据库在存储元数据时的重要作用。 3. 爬虫设计的关键问题及解决方案：详细阐述了如何应对微博等网站的反爬策略，如验证码识别、URL去重以防止循环爬取，以及多线程并发处理。Scrapy-Redis框架提供了内置的工具和策略来解决这些问题。 4. 数据分析：爬虫获取到的数据经过初步分析，得出了一些有价值的小结论。这部分可能涉及内容挖掘、用户行为分析等方面，为后续的数据挖掘和分析奠定了基础。关键词涵盖了新浪微博、Scrapy-Redis、Python、Web爬虫和数据分析等领域，表明该论文专注于实现在特定社交媒体平台上的网络爬虫设计与数据处理实践。通过这种深入的研究，可以为其他类似的大数据采集和分析项目提供参考和指导。

爬虫能用来干什么.如今每天互联网上的流量足足有 10 亿 GB 左右，不可能

毫无选择的全部爬取下来，这是要根据我们自己的需求来有选择的爬取相对应的

数据.那爬虫可以用来干什么呢？我们根据实际需要将爬虫的目标分为三类.

第一类是通过搜索引擎的网络爬虫来充实搜索引擎的索引列表.这部分需求所需

要的数据是各种网页的地址，标题，主题字等等.这方面比较知名的有 google 爬

虫，baidu 爬虫，Yahoo 爬虫等等。可以大致分为批量型爬虫（Batch Crawler），

增量型爬虫（Incremental Crawler），垂直型爬虫(Focused Crawter）.

第二类建立自己的数据仓库，然后用各种机器学习模型来得出一些寻常无法得出

的预测和分析.我们可以通过这些数据集来进行预测.比如说股票，比特币和各种

风险交易。

只不过要达到这种水平，那么需要爬取到特别优质的数据集.而比特币市场比

起股票来说是一个很简单的市场，但是这也能证明爬虫在该方面的运用.

注：该 MIT 论文的链接是 https://arxiv.org/pdf/1410.1231v1.pdf

第三类为各种论文以及文章提供有力的数据支撑。

比如，我们要找出全国气温最低的地方并直观的表示出来，那么我们仅仅需要

爬取一下全国的气象信息，然后通过类似于 D3.js 这种可视化 JavaScript 库就可以

得到一张柱状图.如下图所示，这样，全国最低气温就能直观的显示出来。同时

也可以用过各种气象论文中论点的有力支撑.

 session 会在一定时间内保存在服务器上。当访问增多，会比较占用你服务

器的性能。考虑到减轻服务器性能方面，应当使用 COOKIE；

 cookie 总大小在客户端也有限制（基本是 4k），Firefox 和 Safari 允许 cookie

多达 4097 个字节，包括名（name）、值（value）和等号。

 每个域名 cookie 有限制，Firefox 每个域名 cookie 限制为 50 个。

2.3.1 网络爬虫引发的问题:

 网络爬虫在法律上的风险: 服务器上的数据有产权归属网络爬虫获取数据

后牟利将带来法律风险

 网络爬虫在隐私的泄漏: 网络爬虫可能具备突破简单访问控制的能力，获得

被保护数据从而泄露个人隐私

 Web 服务器默认接收人类访问受限于编写水平和目的，网络爬虫将会为 Web

服务器带来巨大的资源开销

2.3.2 Robots 协议：

Robots 协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除

标准”（Robots ExclusionProtocol），网站通过 Robots 协议告诉搜索引擎哪

些页面可以抓取，哪些页面不能抓取.

作用：网站告知网络爬虫哪些页面可以抓取，哪些不行

形式：在网站根目录下的 robots.txt 文件

网络爬虫：自动或人工识别 robots.txt，再进行内容爬取

约束性：Robots 协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风

险

1．）为什么需要 Robots 协议

互联网上的网页是通过超级链接互相关联起来的，从而形成了网页的网状结

构。爬虫的工作方式就像蜘蛛在网上沿着链接爬来爬去，最基本的流程可以简化

如下：

1)喂给爬虫一堆 URL，我们称之为种子(seeds)；

2)爬虫抓取 seeds，解析 html 网页，抽取其中的超级链接；

3)爬虫接着抓取这些新发现的链接指向的网页。

步骤 2 和步骤 3 循环往复。

了解了上面的流程就能发现：对爬虫来说网站非常被动，只有老老实实被抓取的

份。所以，对于网站的管理者来说，就存在这样的需求：

某些路径下是个人隐私或者网站管理使用，不想被搜索引擎抓取，小网站使用的

是公用的虚拟主机，流量有限或者需要付费，希望搜索引擎抓的温柔点；某些网

页是动态生成的，没有直接的链接指向，但是希望内容被搜索引擎抓取和索引。

网站内容的所有者是网站管理员，搜索引擎应该尊重所有者的意愿，为了满足以

上等等，就需要提供一种网站和爬虫进行沟通的途径，给网站管理员表达自己意

愿的机会。有需求就有供应，robots 协议就此诞生。

2.）微博的 Robots 协议

首先打开浏览器访问微博主页 https://weibo.com/ , 如下图 :

剩余64页未读，继续阅读

空城大大叔

粉丝: 30
资源: 313

基于Scrapy-Redis的微博数据爬虫与分析

论文更改1

论文2.01

论文翻译下1

论文修改秘籍

刘冰毕业论文修改意见1

李南琨第二次论文修改160505 .zip

学位论文修改秘籍

Word论文修改技巧

论文 二稿-已改.zip

大学生论文修改助手

最新资源

论文二稿-已改.zip