Python正则表达式入门与进阶

3星 · 超过75%的资源需积分: 10 82 浏览量更新于2024-07-29 2 收藏 260KB PDF 举报

Python中的正则表达式是通过内置的`re`模块来实现的，提供了强大的文本处理功能。自Python 1.5版本以来，`re`模块引入了Perl风格的正则表达式，相较于之前的Emacs风格，它更加易读且功能强大。正则表达式是一种简洁而专业的语言，可以用于定义字符串匹配的规则，比如检查是否符合特定格式的文本，如电子邮件地址、日期或特定模式的文本。在Python中，你可以通过`re`模块的函数来编译和执行正则表达式。例如，`re.compile()`用于编译正则表达式模式，将其转化为可执行的对象，然后使用`.match()`或`.search()`等方法在字符串中查找匹配的部分。正则表达式的模式经过编译后，会被转化为字节码，由C语言编写的高效匹配引擎执行。正则表达式支持多种操作，包括： 1. **基本字符匹配**：大多数字符，如字母和数字，将匹配它们自身。例如，正则表达式`test`会精确匹配字符串`test`。可以通过`re.IGNORECASE`标志实现大小写不敏感匹配。 2. **元字符**：某些字符具有特殊含义，被称为元字符。例如，`.`匹配任意单个字符，`^`表示字符串的开始，`$`表示字符串的结束，`*`表示前面的字符可以出现零次或多次。元字符列表包括：`. ^ $ * + ? { [ ] \ ( )`。元字符需要转义（使用`\`）才能匹配它们自身。 3. **量词**：`*`、`+`、`?`和`{n,m}`用来控制前面的字符出现的次数。`*`表示零次或多次，`+`表示一次或多次，`?`表示零次或一次，`{n,m}`则指定一个范围。 4. **字符类**：`[]`用来定义一组字符，匹配其中的任意一个。例如，`[abc]`匹配`a`、`b`或`c`。还可以通过`-`来指定范围，如`[A-Z]`匹配所有大写字母。 5. **分组与选择**：`(pattern1|pattern2)`表示`pattern1`和`pattern2`之间的一个选择，会匹配两者之一。 6. **预查与后顾**：`(?=pattern)`表示正向前瞻，确保接下来的文本能匹配`pattern`但不包含在结果中；`(?!pattern)`表示负向前瞻，确保接下来的文本不能匹配`pattern`。 7. **位置匹配**：`^`匹配字符串开头，`$`匹配字符串结尾，`\b`匹配单词边界，`\B`则匹配非单词边界。 8. **反向引用**：在括号内的子模式可以被引用，例如`\1`引用第一个括号中的内容，`\2`引用第二个括号中的内容。 9. **分组捕获与非捕获**：`(pattern)`默认为捕获分组，可以通过`(?:pattern)`创建非捕获分组，不影响结果中的分组计数。 10. **重复与替换**：`re.sub(pattern, repl, string)`函数可以将`string`中匹配`pattern`的部分替换为`repl`。 11. **模式修饰符**：在正则表达式末尾添加`i`表示忽略大小写，`m`使`^`和`$`分别匹配每一行的开头和结尾，`s`使`.`匹配包括换行符在内的所有字符。正则表达式虽然功能强大，但并非所有字符串处理任务都适合使用。对于复杂的模式匹配，正则表达式可能会变得难以理解和维护。在这种情况下，使用Python的内建字符串方法或自定义函数可能更直观且易于理解。尽管它们可能在性能上略逊一筹，但对于可读性和维护性来说，这是一个值得权衡的选择。理解并熟练运用Python的正则表达式，能够大大提高你在处理字符串时的效率和灵活性。

LATEX 文件查找。为了要在程序代码中判断，首先要写出想要匹配的字符串。接

下来你需要在所有反斜杠和其它元字符前加反斜杠来取消其特殊意义，结果要匹

配的字符串就成了"\\section"。当把这个字符串传递给 re.compile()时必须

还是"\\section"。然而，作为 Python 的字符串实值(string literals)来表示

的话，"\\section"中两个反斜杠还要再次取消特殊意义，最后结果就变成了

"\\\\section"。

字符

阶段

\section

要匹配的字符串

\\section

为 re.compile 取消反斜杠的特殊意义

"\\\\section"

为"\\section"的字符串实值(string literals)取消反斜杠的特

殊意义

简单地说，为了匹配一个反斜杠，不得不在 RE 字符串中写 '\\\\'，因为正则

表达式中必须是 "\\"，而每个反斜杠在常规的 Python 字符串实值中必须表示

成 "\\"。在 REs 中反斜杠的这个重复特性会导致大量重复的反斜杠，而且所生

成的字符串也很难懂。

解决的办法就是为正则表达式使用 Python 的 raw 字符串表示；在字符串前加

个 "r" 反斜杠就不会被任何特殊方式处理，所以 r"\n" 就是包含"\" 和 "n"

的两个字符，而 "\n" 则是一个字符，表示一个换行。正则表达式通常在 Python

代码中都是用这种 raw 字符串表示。

常规字符串

Raw 字符串

"ab*"

r"ab*"

"\\\\section"

r"\\section"

"\\w+\\s+\\1"

r"\w+\s+\1"

执行匹配

剩余34页未读，继续阅读

lonelycatcher

粉丝: 20
资源: 2

Python正则表达式入门与进阶

第11.25节 Python正则表达式编译re.compile及正则对象使用.rar

Python正则表达式基础

python正则表达式

Python正则表达式

知识图谱-基于Neo4j+Python+Cypher+KG实现的小型金融知识图谱构建项目-附项目源码+流程教程-优质项目实战

资产管理系统-使用Python+CSS开发的资产配置管理系统-附完整流程教程-优质项目.zip

基于SpringMVC+Spring+MyBatis的博客网站系统源码+数据库+使用说明（毕业设计）

614075276467436开心叠一叠.apk

优秀毕业设计-基于海思Hi3516开发板的RTP流媒体服务器系统-项目实战.zip

MyBatis 36道面试题和答案（2025最新版）.docx

最新资源