Python爬虫基础：requests库与数据解析入门

下载需积分: 25 | PDF格式 | 777KB | 更新于2024-08-04 | 22 浏览量 | 举报

"该资源是关于Python爬虫的入门教程，涵盖了服务器渲染和客户端渲染的概念，以及在爬虫过程中常用到的HTTP请求头和响应头中的关键信息，如User-Agent、Referer和Cookie等。同时，教程通过示例介绍了如何使用requests库进行GET请求，并保存响应内容到文件。此外，还提及了数据解析的重要性，特别是POST请求的使用，并简要提到了数据解析的几种方法，包括正则表达式(re)和BeautifulSoup(bs4)解析。" 在Python爬虫领域，了解服务器渲染和客户端渲染是非常基础的知识。服务器渲染意味着服务器会预先处理好数据并将其与HTML一起发送给浏览器，因此在查看页面源代码时可以看到完整的数据。相反，客户端渲染则是分两步进行，首次请求仅获取HTML骨架，第二次请求才加载数据，这导致在源代码中无法直接看到数据。在执行网络请求时，请求头扮演着至关重要的角色。其中，User-Agent字段用于标识发出请求的用户代理，可以防止被服务器识别为爬虫；Referer字段记录了请求来源，有助于服务器追踪用户路径，也是反爬策略的一部分；Cookie则通常用于存储用户登录状态和反爬机制中的令牌。响应头同样包含有价值的信息，例如响应头中的Cookie可以用来处理用户会话或验证，而那些具有“token”字样的字符串可能是为了防止各种攻击和反爬措施。在Python中，requests库是进行HTTP请求的常用工具。`requests.get()`函数用于发送GET请求，可以设置headers参数来定制请求头。例如，教程中展示了如何模拟浏览器发送GET请求到百度搜索，并将响应内容写入文件。对于获取特定数据，`requests.post()`函数常用于提交表单数据或执行其他需要发送数据的请求。数据解析是爬虫的另一核心部分，可以采用正则表达式(re)进行简单的文本匹配，或者使用BeautifulSoup等库进行更复杂的HTML和XML文档解析。 Python爬虫需要理解HTTP协议、掌握请求和响应的处理，以及学会如何解析和提取所需数据。本教程提供的基础知识和实例将帮助初学者入门这一领域。

正则表达式

re模板

常用方法

分组匹配

3xpath解析

这三种方式可以混合进行使用，完全以结果做导向，只要能拿到你想要的数据，用什么方案并不重要。

当你掌握了这些之后再考虑性能的问题。

Regular Expression，正则表达式，一种使用表达式的方式对字符串进行匹配的语法规则。

我们抓取到的网页源代码本质上就是一个超长的字符串，想从里面提取内容用正则再合适不过了。

正则的优点：速度快，效率高，准确性高

正则的缺点：新手上手难度有点儿高

不过只要掌握了正则编写的逻辑关系，写出一个提取页面内容的正则其实并不复杂

正则的语法“使用元字符进行排列组合用来匹配字符串在线测试正则表达式https://tool.oschina.net/re

gex



import re

# findall：匹配字符串中所有符合正则的内容

lst = re.findall("\d+","我的电话是：10086，朋友的是10010")

print(lst) # ['10086', '10010']

# finditer:匹配字符串中所有的内容[返回的是迭代器]，从迭代器中拿到内容需要.group( )

it = re.finditer("\d+","我的电话是：10086，朋友的是10010")

for i in it:

 print(i.group())

# search，找到一个结果就返回，返回的结果是match对象,拿数据需要.group( )

s = re.search("\d+","我的电话是：10086，朋友的是10010")

print(s.group())

# match是从头开始匹配，相当于加了^

m = re.match("\d+","10086，朋友的是10010")

print(m)

# 预加载正则表达式

obj = re.compile("\d+")

# 接下来就可以直接使用obj来使用re模块的方法

o1 = obj.findall("我的电话是：10086，朋友的是10010")

print(o1)

import re

s = '<div class="a"><span id="1">小王</span></div>' \

 '<div class="b"><span id="2">夏侯</span></div>' \

剩余12页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

魔都吴所谓

粉丝: 2w+

Python爬虫基础：requests库与数据解析入门

Python爬虫入门教程：超级简单的Python爬虫教程.pdf

爬虫python语句-条件语句与循环语句python爬虫python入门python教程.pdf

Python爬虫保姆级入门教程.pdf

Python爬虫简介.pdf

3.Python爬虫技术.pdf

2.Python爬虫课件.pdf

python爬虫 （入门&进阶）.pdf

python爬虫概述共4页.pdf.zip

如何通过三个小项目入门Python爬虫.pdf

Python爬虫实战入门教程.pdf

最新资源

python爬虫（入门&进阶）.pdf