Python正则表达式教程：元字符与匹配方法

版权申诉

151 浏览量更新于2024-08-25 收藏 387KB PDF 举报

"Python正则表达式教程" 在Python中，正则表达式是一种强大的文本处理工具，用于匹配、查找、替换等操作。本教程主要涵盖了正则表达式的基础知识，包括元字符、方法以及检索和替换。一、正则表达式--元字符 1. **数量词**：数量词用于指定一个字符或字符集出现的次数。例如，`[a-zA-Z]{3,5}` 表示匹配3到5个大小写字母。贪婪与非贪婪模式是正则表达式中的一个重要概念。默认情况下，Python使用贪婪模式，尽可能多地匹配字符，如`'excel*'`会匹配尽可能多的`excel`。非贪婪模式则尽可能少地匹配，例如`'excel.*?'`。此外，`*`表示匹配0次或无限多次，`+`表示至少匹配1次，`?`表示匹配0次或1次。 2. **字符匹配**：`.`通常代表任意单个字符，但不包括换行符。如果要匹配包括换行在内的任何字符，可以使用`DOTALL`模式。 3. **边界匹配**：`^`表示行首，`$`表示行尾，`\b`表示单词边界，`\B`表示非单词边界。 4. **组**：使用圆括号`()`可以创建一个组，用于捕获和引用匹配的部分。例如，`(abc)+`会匹配一个或多个连续的`abc`。 5. **匹配模式参数**：例如，`re.IGNORECASE`使得匹配对大小写不敏感，`re.DOTALL`允许`.`匹配包括换行符在内的所有字符。二、方法 1. **re.findall()**：返回所有非重叠匹配的字符串列表。 2. **re.match()**：只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None。 3. **group()**：匹配对象的方法，用于获取匹配的字符串。 4. **re.search()**：扫描整个字符串，返回第一个成功的匹配。 5. **re.compile()**：预编译正则表达式模式，提高匹配速度。三、检索和替换 1. **re.sub()**：替换字符串中所有匹配的部分。例如，`re.sub('old', 'new', string)`将字符串`string`中所有`old`替换为`new`。学习笔记：在实际应用中，理解并熟练掌握这些元字符和方法对于处理文本数据至关重要。例如，`re.findall('[a-zA-Z]{3,5}', 'Excel12345Word23456PPT12Lr')`能够提取出长度为3到5的字母单词。通过调整贪婪与非贪婪模式，可以控制匹配的行为。例如，使用`'excel+'`可以找到所有连续的`excel`，而`'excel.?'`则会找到单独的`excel`，避免匹配过多的字符。此外，了解如何使用模式参数如`re.IGNORECASE`和`re.DOTALL`可以更灵活地处理各种情况。例如，对于包含换行符的文本，使用`re.DOTALL`可以让`.`匹配任何字符，包括换行。 Python的正则表达式库提供了丰富的功能，能应对各种复杂的文本处理任务。熟练掌握正则表达式是提升Python编程能力的重要一环，它在数据分析、文本挖掘、网页爬虫等领域都有着广泛的应用。

# 贪婪：'[a-zA-Z]{3,5}'

# 非贪婪：'[a-zA-Z]{3,5}?' 或 '[a-zA-Z]{3}'

# 建议使用后者，不要使用?号，否则你会与下面的?号混淆

# 匹配 0 次或无限多次 *号，*号前面的字符出现 0 次或无限次

import re

a = 'exce0excell3excel3excellell'

r = re.findall('excel*',a)

r1 = re.findall('excel.*',a)

r2 = re.findall('excel.+',a)

r3 = re.findall('excel+',a)

r4 = re.findall('excel.?',a)

print(r)

print(r1)

print(r2)

print(r3)

print(r4)

# ['exce', 'excell', 'excel', 'excell']

# ['excell3excel3excellell']

# ['excell', 'excel', 'excell']

# ['excell', 'excel3', 'excell']

# 匹配 1 次或者无限多次 +号，+号前面的字符至少出现 1 次

import re

a = 'exce0excell3excel3'

r = re.findall('excel+',a)

print(r)

# ['excell', 'excel']

# 匹配 0 次或 1 次 ?号，?号经常用来去重复

import re

a = 'exce0excell3excel3'

r = re.findall('excel?',a)

print(r)

# ['exce', 'excel', 'excel']

2. 字符匹配

剩余10页未读，继续阅读

一诺网络技术

粉丝: 0

Python正则表达式教程：元字符与匹配方法

正则抽取时间python（csdn）————程序.pdf

python之re模块使用（csdn）————程序.pdf

python读取word文档（csdn）————程序.pdf

python文件开头含义（csdn）————程序.pdf

python 函数练习题（csdn）————程序.pdf

python中re模块常用内容（csdn）————程序.pdf

visual studio 2022 python 爬虫程序遇到的问题（csdn）————程序.pdf

python实现一个简单的http服务器（csdn）————程序.pdf

python--re模块及爬取红牛分公司实战演练（csdn）————程序.pdf

day05 路由层各种功能（csdn）————程序.pdf

最新资源