Python爬虫：urllib、urllib2与Scrapy框架详解

98 浏览量更新于2024-08-31 收藏 71KB PDF 举报

本篇文章是关于使用Python编写的爬虫编程的入门指南，主要关注于基础模块的使用和一个流行的框架——Scrapy的简要介绍。Python作为网络爬虫开发的首选语言之一，其强大的标准库和丰富的第三方库使得爬取和处理网页数据变得相对容易。首先，我们来了解一下几个关键的Python爬虫基础模块： 1. **urllib**：这是Python的标准库，提供了一组用于处理URLs的函数，包括HTTP请求（如GET和POST方法）。在示例中，第一部分展示了如何使用urllib进行基本的GET请求，通过Request对象构造URL请求，然后读取响应的HTML内容和头部信息。通过异常处理机制，可以捕获并处理可能出现的HTTP错误。 2. **urllib2**：虽然urllib已经足够强大，但urllib2提供了更多的功能，如支持代理、cookies、认证等高级特性。示例中的表单提交就是通过urllib2实现的，通过设置Post数据、User-Agent等信息来发送请求。 3. **re (正则表达式)**：这个模块在爬虫中用于解析和提取网页中的特定信息，如搜索、替换或者提取符合某种模式的数据。虽然没有直接给出使用实例，但在实际的网页解析中，正则表达式是不可或缺的工具。接下来，文章重点介绍了**Scrapy**框架。Scrapy是一个强大的、开源的Python爬虫框架，它提供了完整的爬虫开发流程支持，包括自动化的请求调度、中间件系统、数据存储、反反爬虫策略等功能。相较于基础模块，Scrapy更适合复杂的爬虫项目，可以大大简化爬虫开发的复杂性。它包括以下特点： - **中间件**：允许开发者添加自定义逻辑来处理请求和响应，如重定向、登录处理等。 - **Item Pipeline**：用于数据清洗、解析和存储的一系列步骤，方便将抓取到的数据转化为结构化数据。 - **Selectors**：Scrapy内置的XPath或CSS选择器，简化了网页元素的选择和提取过程。 - **下载管理器**：有效地管理和重试请求，处理可能的网络问题。这篇指南为初学者提供了Python爬虫入门所需的基本模块（urllib、urllib2和re）的使用方法，同时也揭示了Scrapy框架的优势和应用场景，对于希望深入学习Python爬虫的读者来说，这是一份非常实用的参考资料。通过实践这些模块和框架，你可以逐步掌握爬虫开发的技能，为数据抓取和分析奠定坚实的基础。

使用使用Python编写爬虫的基本模块及框架使用指南编写爬虫的基本模块及框架使用指南

主要介绍了使用Python编写爬虫的基本模块及框架使用指南,模块介绍包括了urllib和urllib2以及re的使用例子框架则是Scrapy的简介,需要的朋友可以参考下

基本模块基本模块

python爬虫，web spider。爬取网站获取网页数据，并进行分析提取。

基本模块使用的是 urllib，urllib2，re，等模块

基本用法，例子：

（1）进行基本GET请求，获取网页html

#!coding=utf-8

import urllib

import urllib2

url = 'http://www.baidu.com/'

# 获取请求

request = urllib2.Request(url)

try:

# 根据request，得到返回response

response = urllib2.urlopen(request)

except urllib2.HTTPError, e:

if hasattr(e, 'reason'):

print e.reason

# 读取response的body

html = response.read()

# 读取response的headers

headers = response.info()

（2）表单提交

#!coding=utf-8

import urllib2

import urllib

post_url = ''

post_data = urllib.urlencode({

'username': 'username',

'password': 'password',

})

post_headers = {

'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:31.0) Gecko/20100101 Firefox/31.0',

}

request = urllib2.Request(

url=post_url,

data=post_data,

headers=post_headers,

)

response = urllib2.urlopen(request)

html = response.read()

(3)

#!coding=utf-8

import urllib2

import re

page_num = 1

url = 'http://tieba.baidu.com/p/3238280985?see_lz=1&pn='+str(page_num)

myPage = urllib2.urlopen(url).read().decode('gbk')

myRe = re.compile(r'class="d_post_content j_d_post_content ">(.*?)</div>', re.DOTALL)

items = myRe.findall(myPage)

f = open('baidu.txt', 'a+')

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

i = 0

texts = []

for item in items:

i += 1

print i

text = item.replace('<br>', '')

text.replace('', '').replace(' ', '') + ''

print text

f.write(text)

f.close()

(4)

#coding:utf-8

'''

模拟登陆163邮箱并下载邮件内容

'''

import urllib

import urllib2

import cookielib

import re

import time

import json

class Email163:

header = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

user = ''

cookie = None

sid = None

mailBaseUrl='http://twebmail.mail.163.com'

def __init__(self):

self.cookie = cookielib.CookieJar()

cookiePro = urllib2.HTTPCookieProcessor(self.cookie)

urllib2.install_opener(urllib2.build_opener(cookiePro))

def login(self,user,pwd):

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38713039

粉丝: 6

Python爬虫：urllib、urllib2与Scrapy框架详解

81个Python爬虫源代码+九款开源爬虫工具.doc

系统学习Python 3.6爬虫编写指南

使用纯Python开发Scrapy爬虫框架指南

如何使用Python编写爬虫程序，专门针对招聘网站的特定岗位薪资信息进行抓取，并将结果保存为CSV文件？请结合《Python招聘网站数据爬虫源码及使用指南》进行详细说明。

Python爬虫资源分享：Hug框架快速入门指南

Python网络爬虫编写教程

Python网络爬虫实战指南

Python爬虫框架Scrapy项目实践指南

Python爬虫技术指南及应用

Python爬虫框架搭建指南与实践技巧

最新资源