Python re模块详解：正则表达式基础与函数应用

需积分: 17 45 浏览量更新于2024-07-16 收藏 1.04MB PDF 举报

Python正则模块re是Python标准库中的重要工具，用于处理字符串的模式匹配和查找。它提供了一系列函数和方法，使得在文本数据中进行复杂模式的搜索和替换变得简单。正则表达式是一种强大的文本处理工具，通过一系列的元字符、字符集、范围、选择和组合来定义模式。 `re.compile(pattern, flags=0)`函数是核心组件，它接受一个正则表达式模式`pattern`作为参数，并根据可选标志`flags`（如`re.IGNORECASE`忽略大小写或`re.MULTILINE`多行模式）将其编译成一个正则对象，这个对象存储了编译后的信息，便于后续多次高效地应用。 `re.match()`和`re.search()`是两个常用的搜索函数。`re.match()`函数从字符串的开始位置尝试匹配，如果整个模式完全匹配，返回一个`MatchObject`，否则返回`None`。这意味着它适合用于验证输入的完整性，如邮箱地址或电话号码格式。 `re.search()`函数则是全局搜索，它在整个字符串中查找第一个匹配项，不论其位置。它返回的是第一个匹配的`MatchObject`，即使模式不完全匹配，只要找到就返回结果。这在查找非连续匹配时非常有用。分组是正则表达式中的重要概念，通过小括号`()`来定义一组字符，可以提取这部分匹配的内容。例如，`group(1)`表示获取第一个分组匹配的内容，如果内部有嵌套的括号，那么返回的是最外层的匹配。在`re.match()`和`re.search()`中，分组的使用有助于提取特定部分的信息。值得注意的是，`re.search()`是非贪婪匹配，这意味着它尽可能少地匹配字符，而`re.match()`则是匹配尽可能多的字符，直到遇到无法匹配的位置为止。这是它们在匹配行为上的关键区别。 Python的`re`模块提供了强大且灵活的正则表达式功能，适用于文本处理的各种场景，如数据清洗、数据提取、格式验证等。熟练掌握这一模块，对于编写高效和精确的文本处理脚本至关重要。



re.sub(pattern, repl, string, count=0, ﬂags=0)

re.sub()表示用正则表达式匹配字符串string中的字符串内容，使用repl参数内容替换匹配完成的字

符串内容，返回替换后的字符串。参数count指定替换次数，正则表达式匹配字符串是由左至右的，可

能匹配多个内容，替换操作也是自左向右替换，如果只想替换左边部分匹配内容可以设置count参数，

参数值为非负整数且小于等于最大匹配成功个数；未匹配成功，不做替换，返回原字符串。



二、正则表达式语法

一个正则表达式（或RE）指定了一集与之匹配的字符串；模块内的函数可以让你检查某个字符串是否跟

给定的正则表达式匹配（或者一个正则表达式是否匹配到一个字符串，这两种说法含义相同）。

正则表达式可以拼接；如果 A 和 B 都是正则表达式，那么 AB 也是正则表达式。通常，如果字符串 p

匹配 A 并且另一个字符串 q 匹配 B, 那么 pq 可以匹配 AB。除非 A 或者 B 包含低优先级操作，A 和 B 存

在边界条件；或者命名组引用。所以，复杂表达式可以很容易的从这里描述的简单源语表达式构建。了

解更多正则表达式理论和实现，参考the Friedl book [Frie09] ，或者其他编译器构建的书籍。

以下是正则表达式格式的简要说明。更详细的信息和演示，参考正则表达式HOWTO。

正则表达式可以包含普通或者特殊字符。绝大部分普通字符，比如 'A' , 'a' , 或者 '0' ，都是最简单

的正则表达式。它们就匹配自身。你可以拼接普通字符，所以 last 匹配字符串 'last' . （在这一节

的其他部分，我们将用 this special style 这种方式表示正则表达式，通常不带引号，要匹配的字

符串用 'in single quotes' ，单引号形式。）

find = re.finditer(pattern, 'include21321exclude13243alert213lib32')

print(find)

for i in find:

 print(i)

 print(i.group(0))

# <callable_iterator object at 0x00000000028FB0F0>

# <re.Match object; span=(7, 10), match='213'>

# 213

# <re.Match object; span=(19, 22), match='132'>

# 132

# <re.Match object; span=(29, 32), match='213'>

# 213

import re

pattern = r'\d+'

find_default = re.sub(pattern, ' ', 'include21321exclude13243alert213lib32')

print(find_default)

find_count = re.sub(pattern, ' ', 'include21321exclude13243alert213lib32', 2)

print(find_count)

# include exclude alert lib

# include exclude alert213lib32

剩余17页未读，继续阅读

wei_liao

粉丝: 837
资源: 8

Python re模块详解：正则表达式基础与函数应用

python正则表达式速查表.pdf

python正则re模块详解.pdf

Python正则表达式指南.pdf

Python正则表达式详解.pdf

第一课python正则re模块详解.pdf

python 正则表达式 re 学习.pdf

Python正则表达式研究.zip

Python正则表达式re模块简明笔记.pdf

python正则表达式和re模块详解.pdf

[Python]网络爬虫(七)：Python中的正则表达式教程.pdf

最新资源