Python爬虫入门教程：requests与urllib2实战

需积分: 50 99 浏览量更新于2024-09-07 收藏 1.68MB PDF 举报

“爬虫学习资料，包括requests库和lxml库的使用，以及关于如何爬取百度图片的详细教程。” 在爬虫技术中，Python语言是常用的选择，尤其结合requests和lxml这两个强大的库，可以高效地抓取和处理网络数据。requests库是爬虫中的利器，它使得发送HTTP请求变得极其简单。通过`requests.get()`或`requests.post()`方法，我们可以轻松地获取网页内容或模拟表单提交。 requests库的基本用法如下： 1. 获取网页内容： ```python import requests response = requests.get('http://www.baidu.com') print(response.text) ``` `response`对象包含了服务器的响应，`response.text`则提供了网页的文本内容。 2. 发送POST请求，用于模拟登录等操作： ```python values = {"username": "your_username", "password": "your_password"} data = urllib.parse.urlencode(values) url = "https://login.example.com" request = requests.Request(url, data=data) response = requests.Session().send(request) print(response.text) ``` 这里使用了`requests.Request()`来构建请求，并通过`requests.Session().send()`发送POST请求。 lxml库则是Python的一个XML和HTML解析库，它提供了高效的解析和操作XML、HTML文档的能力。使用lxml，我们可以方便地提取所需信息： 1. 解析HTML文档： ```python from lxml import etree html = """ <html> <body> <h1>Title</h1> <p>Paragraph</p> </body> </html> """ parser = etree.HTMLParser() tree = etree.fromstring(html, parser) title = tree.xpath('//h1/text()')[0] print(title) # 输出: Title ``` 2. 使用CSS选择器提取信息： ```python selector = etree.HTMLParser(recover=True, encoding='utf-8') tree = etree.fromstring(response.content, selector) titles = tree.cssselect('h1.title') for title in titles: print(title.text) ``` 在爬取百度图片的过程中，通常需要识别和处理JavaScript动态加载的内容，可能需要用到如Selenium这样的工具来模拟浏览器行为。同时，为了避免IP被封禁，可能需要使用代理IP，或者使用延时策略（如time.sleep()）来控制请求频率。在实际操作中，爬虫还需要考虑反爬虫策略，如User-Agent伪装、Cookie管理、登录验证等。对于大规模爬取，可能需要使用Scrapy框架，它提供了更完整的爬虫项目管理结构。爬虫学习涵盖了HTTP协议理解、网页解析、数据提取、异常处理等多个方面，而requests和lxml是实现这些功能的重要工具。通过深入学习和实践，我们可以构建出高效稳定的爬虫程序，实现对网络数据的有效抓取和分析。

爬虫



爬虫利器

requests：http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

lxml：https://lxml.de/

文章

爬虫简而言之就是把网页下载下来或者构造信息发给后台从而得到自己想要的东西，当然，下载网页是最简单的方

式，看如下案例，这只是利用urlib2把百度首页下载下来，那么既然已经下载，那么接下来的事情就简单了，可以

用最简单的正则表达式去解析网页，从而获取自己想要的东西。当然，解析网页还有其他方式，文章后续会讲到。

1. urllib2

首先我们调用的是urllib2库里面的urlopen方法，传入一个URL，这个网址是百度首页，协议是HTTP协议，当然你

也可以把HTTP换做FTP,FILE,HTTPS 等等，只是代表了一种访问控制协议，urlopen一般接受三个参数，它的参数

如下：

第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。

第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT

第一个参数URL是必须要传送的，在这个例子里面我们传送了百度的URL，执行urlopen方法之后，返回一个

response对象，返回信息便保存在这里面。



构造Post请求，模拟登陆

import urllib2

response = urllib2.urlopen("http://www.baidu.com")

print response.read()

urlopen(url, data, timeout)

import urllib

import urllib2

values = {"username":"1016903103@qq.com","password":"XXXX"}

data = urllib.urlencode(values)

url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"

request = urllib2.Request(url,data)

response = urllib2.urlopen(request)

print response.read()

下载后可阅读完整内容，剩余8页未读，立即下载

冷夏LX

粉丝: 871

Python爬虫入门教程：requests与urllib2实战

4张免费知识脑图分享：Python爬虫学习资料大揭秘

爬虫学习资料免费领取，限时下载

免费领取！价值百元爬虫学习资料包

python爬虫学习资料下载

python 爬虫学习资料.zip

Python爬虫学习资料收集.zip

python爬虫学习资料PDF.zip

爬虫学习资料总结(实用版）.pdf_python面试

BeautifulSoup爬虫学习资料包分享

Python网络爬虫学习资料包：视频与文档全攻略

最新资源