"Python Requests实现轻量级爬虫,发送URL请求"

需积分: 0 0 下载量 142 浏览量 更新于2024-01-02 收藏 1.96MB DOCX 举报
import requests url = 'http://127.0.0.1:5000/testcss/handleAjax' headers = {'user-agent': 'my-app;Requests 轻量级爬虫1.0'} response = requests.get(url, headers=headers) # 正常响应状态码为 200 if response.status_code == 200: # 获取响应内容 content = response.text # 处理响应内容... # 使用字典形式发送请求的参数 payload = {'key1': 'value1', 'key2': 'value2'} response = requests.get(url, params=payload, headers=headers) if response.status_code == 200: # 处理响应内容... # 发送 POST 请求 data = {'key1': 'value1', 'key2': 'value2'} response = requests.post(url, data=data, headers=headers) if response.status_code == 200: # 处理响应内容... # 处理异常情况 else: print('POST 请求失败') # 处理异常情况 else: print('GET 请求失败') # 处理异常情况 else: print('请求失败') Python的requests库是一个轻量级的HTTP请求库,适用于发送各种类型的请求,包括GET、POST等。本文将介绍如何使用requests库进行轻量级爬虫开发。 首先,我们需要导入requests库,并设置请求的URL和Headers。在这个示例中,我们将发送HTTP GET请求到'http://127.0.0.1:5000/testcss/handleAjax'这个URL,并设置Headers中的'user-agent'字段为'my-app;Requests 轻量级爬虫1.0'。 接下来,我们使用requests.get()方法发送请求,并获取响应结果。正常情况下,响应的状态码应该是200,表示请求成功。我们可以通过response.status_code来获取状态码。 如果响应状态码为200,我们可以通过response.text来获取响应内容,并对内容进行处理。 除了发送GET请求,requests库还支持使用params参数发送带参数的GET请求。我们可以使用字典形式传递参数,例如payload = {'key1': 'value1', 'key2': 'value2'},然后将这个字典作为params参数传递给get()方法。这样,我们就可以发送带参数的GET请求。 如果我们需要发送POST请求,可以使用requests.post()方法,并传递data参数来发送POST请求的数据。与发送GET请求类似,我们可以将需要发送的数据存储在一个字典中,例如data = {'key1': 'value1', 'key2': 'value2'},然后将这个字典作为data参数传递给post()方法。 在处理异常情况时,我们可以根据response.status_code的值来进行处理。如果请求失败,即status_code不为200,可以打印出错误信息。 通过上述步骤,我们可以利用Python的requests库轻松实现一个简单的爬虫程序。由于requests库使用简单,还提供了丰富的功能和扩展性,因此非常适合用于开发各种类型的爬虫程序。