使用Scrapy-Redis和MongoDB进行大数据分析

需积分: 0 122 浏览量更新于2024-08-04 收藏 982KB DOCX 举报

"这篇内容主要讲述了使用Scrapy-Redis框架构建的爬虫在MongoDB数据库中进行数据分析的过程。数据包括用户发表的微博、用户关系表和用户个人信息。文章提到了通过MongoBooster这款可视化工具执行SQL语句来获取数据统计和特定条件的查询。" 在数据分析领域，MongoDB作为NoSQL数据库的一种，因其灵活性和高性能而被广泛应用于存储非结构化或半结构化的数据。在这个案例中，爬虫利用Scrapy-Redis框架抓取的数据被存储在三个不同的集合（对应于SQL中的表格）：information、Tweets和Relationships。 1. 数据概览： - information集合包含428,074条记录，可能包含用户的个人信息如昵称、性别、地理位置等。 - Tweets集合包含1,076,282条记录，这些记录代表用户发表的微博，包含了ID、内容、发布时间、坐标、使用的工具、点赞数、评论数和转发数。 - Relationships集合包含2,661,571条记录，这表示用户之间的关系网络，如关注者和被关注者。 2. 数据统计： - 使用`db.collection.find().count()`方法可以快速统计每个集合中的文档数量，这对于了解数据规模非常有用。 - 爬取的总数据量为4,165,927条，这是三个集合数据量的总和。 3. 查询操作： - 查询粉丝数量大于一亿的用户，这是一个基本的过滤查询，使用了`$gt`操作符来筛选出粉丝数量大于指定值的记录，结果显示共有4个这样的用户。 - 查询浙江地区的女性用户，这是基于地理位置和性别的组合查询，这有助于分析特定地区用户的特征。这些查询示例展示了如何在MongoDB中进行基本的数据探索和分析。更复杂的数据分析任务可能涉及聚合框架（Aggregation Framework），用于计算汇总统计数据、分组数据或创建自定义管道操作。例如，可以使用聚合来计算每个省份的用户数量，或者找出平均点赞数最高的微博类型。此外，还可以使用MapReduce进行大规模的数据处理和分析。通过MongoBooster这样的可视化工具，数据分析师可以更直观地理解数据分布，进行更复杂的查询，并为后续的数据挖掘和机器学习任务打下基础。在实际业务中，数据分析可能还包括对用户行为模式的深入研究，比如分析用户活跃时间、热门话题分析、用户情感分析等，以支持产品优化、市场策略制定或商业智能决策。

5.2.1 数据分析

本论文是用 Scrapy-Redis 架构上的爬虫所爬取的数据，在 Nosql 类型的 Mongodb 数据库

中的做简单的数据分析。爬了 2 天，因为写了暂停和继续功能，我基本是开一下关一下的，

不过速度确实还不够快不快。我记得有个人 PHP 写的一天就能 1300w ！呢好啦，正式开

始吧，上一章介绍了数据的 E-R 模型以及设计等等这里就不再啰嗦就简单介绍一下数据先：

用户发表的微博（ _id ， ID ， Content ， PubTime ， Co_oridinates ， Tools ， Like ，

Comment ，Transfer ）

用户关系表（_id，Host2，Host1）

用户个人信息（_id，NickName，Gender，Province，City，BriefIntroduction，Birthday，

Num_Tweets: ， Num_Follows ， Num_Fans ， SexOrientation ， Sentiment ， VIPlevel ，

Authentication，URL）

爬虫运行成功爬取数据中

爬虫爬取的在 mongodb 中的数据

在 Mongodb 的可视化工具 MongoBooster 中写 SQL 语句做简单的数据分析：

下载后可阅读完整内容，剩余6页未读，立即下载

创业青年骁哥

粉丝: 28
资源: 341

使用Scrapy-Redis和MongoDB进行大数据分析

CCSV5.2.rar_CCSV5.2_ccsv5

蓝牙5.2_协议规范.rar

leachOmnet5.2.rar_OMNET 5.2_omnet_omnet leach_omnet++5_rar

5.2_Browserunterstuetzung

java5.2_log

pacjka5.2.zip_Carsim轮胎模型_PAC5.2_carsim 轮胎_轮胎模型_魔术公式

VB.NET--Supermap5.2.rar_supermap5.2_vb.net

ImageEn_5.2_DXE2-D10

landsat8_ro_s_cal_地表反射率_landsat8__V5.2_

Fiddler2_v2.3.5.2_英文版_附中文文档.rar

最新资源