Python re模块实战：红牛分公司爬虫与正则表达式解析

版权申诉

3 浏览量更新于2024-08-26 收藏 99KB PDF 举报

Python中的正则表达式模块(re)是进行字符串处理和文本模式匹配的重要工具。这个模块提供了多种函数，如`re.findall()`、`re.search()`、`re.match()`和`re.split()`等，用于在字符串中查找、替换和分割符合特定模式的子串。 1. **正则取消转义**：在正则表达式中，有些字符具有特殊含义，如`\`本身是转义字符，如果要在正则中表示实际的`\`，需要使用双反斜杠 `\\`。但在Python的re模块中，为了避免这种冲突，推荐使用前缀`r`来创建一个原始字符串，即`r'\n\a\t'`，这样可以直接写入`\n`、`\a`和`\t`，无需转义。 2. **`re.findall()`与`re.search()`**： - `re.findall('正则表达式', '带匹配的文本')`：此函数返回所有匹配的子串，形成一个列表。例如，`re.findall('a', 'abdjasonjack')` 返回 `['a', 'a', 'a']`。 - `re.search('正则表达式', '带匹配的文本')`：仅返回第一个匹配的子串，如果没有找到匹配项，则返回`None`或Match对象，通过`.group()`方法获取匹配的子串。 3. **`re.match()`与`re.search()`的区别**： - `re.match()`：从字符串的开始位置进行匹配，只匹配位于字符串起始位置的模式。 - `re.search()`：搜索整个字符串，直到找到第一个匹配项，即使它不在字符串的开始处。 4. **`re.split()`**：此函数用于根据正则表达式的匹配结果分割字符串。如`re.split('[ab]', 'abcd')`会返回`['', '', 'cd']`，因为'a'和'b'之间的空格被删除了。 5. **`re.sub()`与`re.subn()`**： - `re.sub('正则表达式的目标类型', '转换字符', '字符串')`：替换字符串中所有匹配的部分，返回替换后的字符串。 - `re.subn('正则表达式的目标类型', '转换字符', '字符串')`：类似`re.sub()`, 但返回元组，包含替换后的字符串和替换次数。 6. **`re.compile()`**：这是一个编译函数，用于提前编译正则表达式，提高后续匹配操作的速度。例如，`regexp_obj = re.compile('\d+')` 编译了一个匹配一连串数字的正则表达式，之后可以用 `regexp_obj.search()` 和 `regexp_obj.match()` 进行高效匹配。通过以上知识点，我们可以利用Python的re模块进行复杂的文本处理和爬虫任务，如从网页抓取特定格式的信息，或者在字符串中进行替换、提取关键数据等。掌握这些函数和用法有助于编写高效的Python脚本，尤其是在数据挖掘和网络爬虫领域。

正则取消转义

正则器中取消转义推荐使用\(每个\只能取消一个字符的转义)

而 python 中取消转义推荐使用 r‘ ’（也可以使用\）

python 内置模块之 re

引用方式：import re

import re

re.findall('正则表达式','带匹配的文本')#根据正则匹配所有符合要求的文

本

res=re.findall('a','abd jason jack')#找到所有带 a 的字符

print(res)#生成列表['a', 'a', 'a']

re.search('正则表达式','带匹配的文本')#根据正则匹配一个符合目标的字符

# ret=re.search('s','hawhe scere asec')

ret=re.search('j','hawhe scere asec')#没有符合条件的数据，group 直接

报错

print(ret)#<re.Match object; span=(6, 7), match='s'>

print(ret.group())#可以取出拿到的第一个 s

findall 中没有查到相关的字符，则返回值是一个【】

search 中没有查到相关的字符，group 中直接报错

re.match:根据正则从头到开始匹配，换言之，想要匹配的字符必须在开头

ret=re.match('a','hawhe scere asec')#None

print(ret)

ret=re.match('h','hawhe scere asec')#<re.Match object; span=(0, 1),

match='h'>

print(ret)

print(ret.group())#h

re.split:按照前面的正则表达式切割字符

res=re.split('[ab]','abcd') print(res)#返回值【】【】cd

re.sub:re.sub('正则表达式的目标类型'，‘转换字符’，‘字符串’，可跟

个数（不写默认替换全部）)#输出结果将目标类型替换成转换字符

re.subn:在 sub 的基础上将字符转成元组

re.compile:

下载后可阅读完整内容，剩余3页未读，立即下载

一诺网络技术

粉丝: 0

Python re模块实战：红牛分公司爬虫与正则表达式解析

Python应用打包工具python-for-android深度解析

Python办公自动化：python-docx-template.zip教程与源文件

解决Python-docx安装问题：快速下载与本地安装指南

docker容器中使用opencv-python报错（csdn）————程序.pdf

python训练营python笔记task2（csdn）————程序.pdf

python爬虫之xpath入门（csdn）————程序.pdf

python 2048游戏核心算法（csdn）————程序.pdf

python 获取百度地图坐标，入库（csdn）————程序.pdf

使用anaconda3在内网机配置python环境（csdn）————程序.pdf

python threading同一进程下线程共享全局变量（csdn）————程序.pdf

最新资源