Python实现人人网爬虫获取用户信息

5星 · 超过95%的资源需积分: 9 110 浏览量更新于2024-09-13 2 收藏 5KB TXT 举报

本文档主要介绍了如何使用Python进行人人网（Renren）的爬虫程序编写。首先，作者引入了相关的库，如`cookielib`用于管理cookies，`urllib2`用于HTTP请求处理，以及`BeautifulSoup`用于解析HTML内容。在爬虫开始前，开发者需要设置cookie处理器和安装opener，确保后续的登录和数据获取能够通过cookies实现。接下来，代码定义了一个`Request`对象，包含了登录参数，如邮箱和密码，然后通过`urlopen`方法发送POST请求到登录页面。登录成功后，程序读取主页内容，并使用`BeautifulSoup`解析器找到包含用户姓名和头像链接的段落元素。通过正则表达式匹配，提取用户的唯一标识（hostid）和用户名（hostname），并将这些信息存储在一个字典中。为了提高爬虫效率，这里使用了多线程技术，通过`threading.Thread`创建一个名为`CrawlerThread`的子类，每个子线程处理一个朋友的请求。`g_mutex`是线程锁，用于防止并发操作时的数据冲突。变量`count`记录了已处理的朋友数量，`g_ignore`是一个列表，用于排除特定的用户ID，而`WAIT`, `DONE`, 和 `FAIL` 分别表示任务状态的三种标记。在`CrawlerThread`类的初始化方法中，传入一个朋友信息对象（frienditem），这个对象可能包含了待抓取的朋友的ID或相关链接。每个线程在执行时，会处理自己的任务并更新全局的`dict`字典，以便在整个爬虫过程中跟踪和管理用户数据。总结来说，这篇代码提供了一个基础的框架，展示了如何使用Python的requests库、BeautifulSoup解析HTML，以及如何通过多线程技术在人人网进行登录并抓取用户信息。但请注意，网络爬虫需遵守网站的Robots协议和法律法规，切勿用于非法用途。同时，随着网站结构的改变，这段代码可能需要定期更新以适应新的页面布局。

cj = cookielib.LWPCookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) #将Cookie记录保存到cj对象中
urllib2.install_opener(opener) #用自己生成的opener替代urllib2中的全局变量

#构造Post数据，并提交
args = {'domain':'renren.com', 'origURL':'http://www.renren.com/SysHome.do',
'email':'****@**.com', 'password':'********'}
req = urllib2.Request('http://www.renren.com/PLogin.do', urllib.urlencode(args))

#获取用户ID及用户名
page=urllib2.urlopen('http://www.renren.com/home').read()
soup=BeautifulSoup(page)
content=soup.find(name='p',attrs={'class':'name-and-icons'})
idnamestr=content.find('a',attrs={'class':'name'})
hostname=idnamestr.text
idPattern=re.compile(r'/d+')
match=idPattern.search(idnamestr['href'])
hostid=match.group()
dict[hostid]=hostname #使用一个字典保存用户ID、名称映射

g_IDs=[] #要处理、已处理的ID，数据结构为（ID，处理层数，处理状态）
threadnum=10 #最大线程数
g_mutex=threading.RLock() #共享资源锁，设为可重入锁对象，即单个线程可以多次获得锁（递归锁）
count=0 #处理的层数
dict={} #维护ID，name之间的关系
g_ignore=['265359909'] #需要祛除的用户ID
WAIT=0 #等待处理
DONE=1 #已处理
FAIL=2 #处理失败

下载后可阅读完整内容，剩余3页未读，立即下载

rainday007008

粉丝: 0
资源: 3

Python实现人人网爬虫获取用户信息

淘宝模拟登录爬虫python教程与代码解析

贝壳二手房爬虫Python代码：快速筛选与多进程加速

Python爬虫项目代码及作业示例解析

人人网python爬虫

人人贷爬虫代码

python爬虫爬取人人相册

python爬虫 模拟登录人人网过程解析

【python 爬虫】人人视频 API 接口解析

python爬虫之人人网自动登录.zip

人人爬虫 （ 一键下载好友相册日志 ）

最新资源

python爬虫模拟登录人人网过程解析

人人爬虫（一键下载好友相册日志）