Python正则表达式基础教程：匹配与元字符详解

需积分: 5 42 浏览量更新于2024-09-14 收藏 4KB TXT 举报

正则表达式是一种强大的文本处理工具，在Python编程中广泛应用，特别是在数据清洗、字符串操作和模式匹配等领域。本文档是一份个人整理的关于Python正则表达式的笔记，旨在帮助初学者理解和掌握这一技术。首先，让我们了解一些基本的正则表达式符号和概念： 1. **"."**：这个符号表示任意一个字符（除换行符\n），在匹配时非常灵活，可以用于替换或提取任何单个字符。 2. **"^"**：这是匹配字符串起始位置的元字符，常用于确保搜索从字符串的开头开始。 3. **"$"**：此元字符用于匹配字符串的结束位置，确保匹配的是完整的一个字符串实例。 4. **"*"**：星号(*)代表前面的元素可以出现0次或多次，但它是非延展性的，即不会自动扩展到整个字符串。例如，正则表达式"aga23gaafa"中的"8*"将匹配不到任何内容，因为8*仅匹配0次。 5. **"+"**：加号(+)与星号类似，表示前面的元素至少出现一次，也是非延展性匹配。 6. **"?"**：问号(?)可以匹配0次或1次，同样是非延展性。另外，当它紧跟在闭合操作符后，如3+?，会变为最不贪婪模式，使得"+"匹配最少次数。 7. **"{N}"**：花括号用于指定某个字符或模式重复N次，包括该字符本身。例如，"53{2}"表示匹配"533"。 8. **"{MN}"**：类似于"{N}"，但指明范围，如匹配M到N次。 9. **"[]"**：字符集，用于匹配方括号内的任一字符。例如，"[mark]"匹配'm', 'a', 'r', 或 'k'。 10. **"[x-y]"**：区间字符集，匹配从x到y的所有字符，如匹配英文字母[a-zA-Z]。 11. **"()"**：圆括号用于分组，可以保存子表达式的匹配结果，并且可以引用这些子组。`\d`匹配任意十进制数字，`\D`则匹配非数字。 12. **"\w" 和 "\W"**：`\w`匹配任意字母或数字，等同于[a-zA-Z0-9]，而`\W`匹配非字母数字字符。 13. **"\s" 和 "\S"**：`\s`匹配空白字符，如空格、制表符等，`\S`匹配非空白字符。 14. **"\b" 和 "\B"**：`\b`表示单词边界，`\B`则表示非单词边界。在搜索单词'the'时，`\bthe\b`确保只匹配完整的单词。 15. **"\N"**：用于匹配已保存的子组，如`re.match()`和`re.search()`函数中的group()方法。 16. **"re.match()" 和 "re.search()"**：这两个函数是Python的正则表达式库re中的，前者从字符串开始匹配，后者从字符串中间开始，直到找到匹配或到达字符串末尾。 17. **"matchedobject.group()"**：匹配对象的方法，group()返回匹配结果。索引0或无参数通常返回整个匹配结果，其他索引则返回指定子组的内容。通过学习这些基础知识，你可以开始编写更复杂的正则表达式，解决各种文本处理任务。记住，正则表达式的理解和熟练应用需要不断的实践和经验积累。祝你在正则表达式的学习之旅中取得进步！

Table:

literal: 普通的逐字匹配.
"|": 该操作符具有延伸性(贪婪),例: at|home 匹配的是at或home,而不是t或h.
'.': 任意一个字符(不含\n)
"^": 匹配字符串起始部分
"$": 匹配字符串结束部分
"*": 匹配0次或多次前面出现的表达示,只对前一位有效(非延展),重复次数含前面的字符, 如果样本为:"aga23gaafa",那把表达式r"8*"是能匹配到内容的,内容是NONE,因为这个表达式8*如果按重复0次算本身就是NONE.
"+": 匹配1次或多次前面出现的表达式,只对前一位有效(非延展),重复次数注意事项同上.
"?": 匹配0次或1次前面出现的表达式,只对前一位有效(非延展),重复次数注意事项同上.
"?": ?同时还被重载赋以另一个含义: 当'?'用在闭合操作符后面,它将要求正则引擎尽可能少的匹配. (*和+是闭合操作符),如: 3+含义为: 3或33或333或3333..., 如果是3+?意思为: 3 (取最不贪婪的值,让"+"代表重复一次的含义).

"{N}": 匹配之前的字符N次, N次包含了前面字符本身(非延展).如: 53{2}就是匹配"533"的意思.
"{MN}": 匹配之前字符N-M次,其它同上.
"[...]": 匹配字符集内的任一字符.如:[mark]匹配m或a或r或k
"[x-y]": 匹配字符集内一个区间,如:[a-zA-Z]
"(...)": 封闭正则

'\d': 任意十进制数, '\D'相反
'\w': 任意字母或数字(和[a-zA-Z0-9]同意), '\W'相反
'\s': 匹配空格,tab等. '\S'相反.
'\b': 匹配单词边界,'\B'相反. 就是[a-zA-Z0-9]与[^a-zA-Z0-9]之间的边界内容.如:我希望在字符串"give me the themometer"中匹配单词'the' 应该使用"\bthe\b".
'\N': 匹配己保存的子组.
'\charactor': 转义特殊字符为本身, "\?"就是?号本身.

re module:
re.match(pattern,string,flag) //从字符串开始匹配
re.search(pattern,string,flag) //从字符串中间开始匹配(只匹配首次出现并符合条件的字符内容)

matched object:

下载后可阅读完整内容，剩余1页未读，立即下载

Markict

粉丝: 0
资源: 3

Python正则表达式基础教程：匹配与元字符详解

6正则表达式笔记[借鉴].pdf

正则表达式笔记归纳

Python正则表达式笔记

正则表达式笔记Python

java正则表达式笔记

正则表达式笔记三则

正则表达式笔记.docx

Python 中文正则表达式笔记

Java正则表达式笔记.pdf

Java中的正则表达式笔记

最新资源