Python爬虫入门：详解urllib2 Proxy与Timeout设置

196 浏览量更新于2024-08-29 收藏 129KB PDF 举报

本篇文章是针对零基础Python爬虫开发者的一篇关于urllib2模块的深度指南。urllib2是Python标准库中的一个用于处理URL的工具，它提供了一种简单的方式来发送HTTP请求。文章主要聚焦在两个关键的使用细节上： 1. Proxy设置: - urllib2默认情况下会使用操作系统环境变量`http_proxy`来设置HTTP代理，这对于简单场景下是方便的。但是，如果需要在程序中更精确地控制代理，可以创建`ProxyHandler`对象，如示例代码所示： ```python enable_proxy = True proxy_handler = urllib2.ProxyHandler({"http": "http://some-proxy.com:8080"}) null_proxy_handler = urllib2.ProxyHandler({}) if enable_proxy: opener = urllib2.build_opener(proxy_handler) else: opener = urllib2.build_opener(null_proxy_handler) # 如果需要更改全局设置，可以使用install_opener()函数，但这可能导致后续无法灵活切换代理。推荐的做法是直接使用opener.open()方法进行操作，以保持灵活性。 ``` - 设置代理后，可以根据需要在程序的不同阶段选择启用或禁用代理。 2. Timeout设置: - 在Python 2.6之前的版本，由于API限制，urllib2没有直接提供超时设置功能。开发者需要通过修改Socket的全局超时来间接实现，例如： ```python import urllib2 import socket socket.setdefaulttimeout(10) # 设置默认超时时间为10秒 urllib2.socket.setdefaulttimeout(10) # 另一种设置方式 ``` - 从Python 2.6开始，urllib2.urlopen()方法新增了`timeout`参数，可以直接设置请求的超时时间，简化了设置过程： ```python import urllib2 response = urllib2.urlopen('http://www.google.com', timeout=10) # 设置10秒超时 ``` - 这个改进使得开发者能够更好地控制网络请求的响应时间，防止因长时间等待导致的性能问题。通过学习这些细节，初学者可以更好地掌握urllib2在Python爬虫开发中的应用，尤其是在处理网络请求和代理设置方面。同时，了解不同版本Python之间的差异也有助于避免潜在的问题。

零基础写零基础写python爬虫之爬虫之urllib2使用指南使用指南

前面说到了urllib2的简单入门，下面整理了一部分urllib2的使用细节。

1.Proxy 的设置的设置

urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。

如果想在程序中明确控制 Proxy 而不受环境变量的影响，可以使用代理。

新建test14来实现一个简单的代理Demo：

复制代码代码如下:

import urllib2

enable_proxy = True

proxy_handler = urllib2.ProxyHandler({“http” : ‘http://some-proxy.com:8080’})

null_proxy_handler = urllib2.ProxyHandler({})

if enable_proxy:

opener = urllib2.build_opener(proxy_handler)

else:

opener = urllib2.build_opener(null_proxy_handler)

urllib2.install_opener(opener)

这里要注意的一个细节，使用 urllib2.install_opener() 会设置 urllib2 的全局 opener 。

这样后面的使用会很方便，但不能做更细致的控制，比如想在程序中使用两个不同的 Proxy 设置等。

比较好的做法是不使用 install_opener 去更改全局的设置，而只是直接调用 opener 的 open 方法代替全局的 urlopen 方法。

2.Timeout 设置设置

在老版 Python 中（Python2.6前），urllib2 的 API 并没有暴露 Timeout 的设置，要设置 Timeout 值，只能更改 Socket 的全局

Timeout 值。

复制代码代码如下:

import urllib2

import socket

socket.setdefaulttimeout(10) # 10 秒钟后超时

urllib2.socket.setdefaulttimeout(10) # 另一种方式

在 Python 2.6 以后，超时可以通过 urllib2.urlopen() 的 timeout 参数直接设置。

复制代码代码如下:

import urllib2

response = urllib2.urlopen(‘http://www.google.com’, timeout=10)

3.在在 HTTP Request 中加入特定的中加入特定的 Header

要加入 header，需要使用 Request 对象：

复制代码代码如下:

import urllib2

request = urllib2.Request(‘http://www.baidu.com/’)

request.add_header(‘User-Agent’, ‘fake-client’)

response = urllib2.urlopen(request)

print response.read()

对有些 header 要特别留意，服务器会针对这些 header 做检查

User-Agent : 有些服务器或 Proxy 会通过该值来判断是否是浏览器发出的请求

Content-Type : 在使用 REST 接口时，服务器会检查该值，用来确定 HTTP Body 中的内容该怎样解析。常见的取值有：

application/xml ：在 XML RPC，如 RESTful/SOAP 调用时使用

application/json ：在 JSON RPC 调用时使用

application/x-www-form-urlencoded ：浏览器提交 Web 表单时使用

在使用服务器提供的 RESTful 或 SOAP 服务时， Content-Type 设置错误会导致服务器拒绝服务

4.Redirect

urllib2 默认情况下会针对 HTTP 3XX 返回码自动进行 redirect 动作，无需人工配置。要检测是否发生了 redirect 动作，只要检

查一下 Response 的 URL 和 Request 的 URL 是否一致就可以了。

复制代码代码如下:

import urllib2

my_url = ‘http://www.google.cn’

response = urllib2.urlopen(my_url)

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38557095

粉丝: 2
资源: 930

Python爬虫入门：详解urllib2 Proxy与Timeout设置

更新修改后的Python模块方法

技术更新，战术升级！Python爬虫案例实战从零开始一站通.rar

从零开始学python第六篇

python爬虫教程urllib

python爬虫urllib设置代理proxy

python中的urllib2库安装

python爬虫urllib爬取网站

python27的爬虫urllib

python如何安装urllib库

python爬虫报错urllib.error.HTTPError: HTTP Error 420:

最新资源