Python爬虫基础：requests模块与HTTP请求详解

101 浏览量更新于2024-08-31 收藏 225KB PDF 举报

本文主要介绍了Python爬虫中的requests库的使用，探讨了爬虫的基本概念，包括通用爬虫和聚焦爬虫的区别，并提到了通用爬虫的局限性以及robots协议。此外，还讲解了HTTP与HTTPS协议的区别以及GET请求的实现。在Python爬虫领域，requests是一个非常重要的库，它允许我们模拟浏览器发送网络请求并接收响应。文章首先介绍了爬虫的基本定义，即爬虫是一种自动抓取互联网信息的程序，它可以模拟客户端的行为。通用爬虫广泛用于搜索引擎，如百度、谷歌等，它们抓取大量网页并保存本地以构建互联网内容的镜像。而聚焦爬虫则针对特定需求，只抓取与目标相关的信息。通用爬虫存在一些局限性，比如大部分搜索结果可能对用户无用，且无法处理多媒体内容，如图片、音频和视频。同时，通用搜索引擎无法根据每个用户的个性化需求提供定制化的搜索结果。此外，robots协议是网站用来指示搜索引擎哪些页面可以抓取、哪些禁止抓取的规则，尽管不具备法律效力，但它在业界被广泛接受和遵循。接着，文章介绍了HTTP和HTTPS协议。HTTP是超文本传输协议，主要用于网页传输，而HTTPS是在HTTP基础上增加了SSL/TLS加密，增强了数据传输的安全性。它们默认使用的端口号分别为80和443。然后，通过一个简单的示例展示了如何使用requests库发送GET请求。通过设置User-Agent头来模拟浏览器，向指定URL（例如百度首页）发送请求，并获取响应。响应内容可以是文本或二进制，如下载百度首页的logo，可以通过获取响应的content属性，进一步处理或保存为文件。 Python爬虫之requests的使用涵盖了爬虫的基础知识、HTTP协议的理解以及requests库的实战应用，对于初学者来说是很好的入门教程。通过学习这部分内容，开发者能够理解爬虫的基本原理，并具备使用requests进行简单网络爬虫开发的能力。

python爬虫之爬虫之requests的使用的使用

先来看一下相关概念先来看一下相关概念

爬虫的定义爬虫的定义

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

只要是浏览器能做的事情，原则上，爬虫都能够做

通用爬虫和聚焦爬虫通用爬虫和聚焦爬虫

通用爬虫：通用爬虫是搜索引擎抓取系统（百度、谷歌、搜狗等）的重要组成部分。主要是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

聚焦爬虫：是面向特定需求的一种网络爬虫程序，他与通用爬虫的区别在于：聚焦爬虫在实施网页抓取的时候会对内容进行筛选和处理，尽量保证只抓取与需求相关的网页信息。

通用爬虫的局限性通用爬虫的局限性

通用搜索引擎所返回的网页里90%的内容无用。

图片、音频、视频多媒体的内容通用搜索引擎无能为力

不同用户搜索的目的不全相同，但是返回内容相同

robots协议协议

Robots协议：网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

例如：https://www.taobao.com/robots.txt

(没有法律效应，只能从道德上规范)

http和和https

http

超文本传输协议

默认端口号：80

https

http + ssl(安全套接字层)

默认端口号：443

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38576229

粉丝: 5
资源: 901

Python爬虫基础：requests模块与HTTP请求详解

python爬虫实例 requests+beautifulsoup4解析 HTML 页面一个简单的网页上抓取标题和链接

Python爬虫入门教程：超级简单的Python爬虫教程.pdf

Python爬虫与Requests库笔记.md

python爬虫开发之使用python爬虫库requests，urllib与今日头条搜索功能爬取搜索内容实例

Python爬虫工具requests-html使用解析

python爬虫基础入门 — python爬虫requests库使用操作全解

使用Python爬虫库requests发送请求、传递URL参数、定制headers

python爬虫 基于requests模块的get请求实现详解

python爬虫 基于requests模块发起ajax的get请求实现解析

Python爬虫库requests获取响应内容、响应状态码、响应头

最新资源

python爬虫基于requests模块的get请求实现详解

python爬虫基于requests模块发起ajax的get请求实现解析