![](https://csdnimg.cn/release/download_crawler_static/87957886/bg6.jpg)
2 系统需求分析与设计
2.1 系统需求
2.1.1 名词说明
1)微博用户信息:指的是新浪微博的用户的 ID、粉丝数、关注数、注册时间等信
息、
2)微博信息:指的是微博用户发布的微博的 ID、内容、发布时间,评论数,转发
数等信息。
3)用户:指的是使用本系统的用户。
2.1.2 系统功能需求说明
微博开放平台是一个基于新浪微博客系统的开放的信息订阅、分享与交流平台。微
博开放平台提供了海量的微博信息、粉丝关系、以及随时随地发生的信息裂变式传播渠
道。
系统分成三个部分:数据爬虫,服务器端,客户端。
(1)数据爬虫通过调用微博开放平台的接口,获取微博用户及其相应的信息,进行
分析后存入数据库。
(2)服务器部分接收客户端的请求,从服务器数据库或新浪平台获取数据后返回相
应的数据给客户端。
(3)客户端用于数据的展示。
1)微博数据爬虫部分:
为了实现数据爬虫的功能,需要解决的问题是数据的获取,这就需要了解相关的基
本的网络知识。理解了数据传输的原理,并利用现有的开源函数库,就可以完成数据获
取函数的编写。
其中,主要要处理的问题有:
(1)实现 HTTP 请求报文的生成
(2)实现 HTTP 返回报文的接收和解压
(3)实现对解压后的 json 文件进行分析和信息提取,如果需要入库,存入入库队
列。
2)微博数据爬虫基本需求:
(1)数据信息初始化:
读取数据库中已有的信息,存入微博用户缓存队列。为爬虫系统的运行做好准备。
(2)微博用户发现:
自动爬取获取新的微博用户信息,如果发现新的微博用户 ID,则将该用户信息存入。
(3)微博信息爬取: