Python正则表达式教程:贪婪与非贪婪匹配

0 下载量 181 浏览量 更新于2024-08-29 收藏 57KB PDF 举报
"这篇教程是廖雪峰关于爬虫系列的第五节,主要讲解了正则表达式的相关知识,包括贪婪与非贪婪匹配、匹配除换行符外的字符、纯数字的正则表达式、正则范围运算以及常用的匹配函数。" 在编程领域,正则表达式是一种强大的文本处理工具,广泛应用于数据提取、验证输入等场景。本教程以Python语言为例,深入浅出地介绍了正则表达式的关键概念。 首先,讲解了贪婪与非贪婪匹配。在正则表达式中,默认的匹配方式是贪婪的,意味着它会尽可能多地匹配字符。例如,对于字符串"mdfsdsfffdsn12345656n"和模式'm(.*)n',贪婪匹配会得到"dfsdsfffdsn12345656"。而通过在量词后面添加问号(?),可以使其变为非贪婪模式,只匹配最少的字符,如'm(.*?)n',结果为"dfsdsfffds"。 其次,教程提到了如何匹配除了换行符(\n)之外的所有字符。在正则表达式中,`.`通常用于匹配任意单个字符,但不包括换行符。为了包含换行符,我们可以使用`re.S`或`re.DOTALL`标志,这使得`.`也能匹配换行符。例如,模式`m(.*)n`配合`re.S|re.I`可以匹配整个多行字符串。 接着,教程介绍了纯数字的正则表达式。`\d`代表数字,`\d+`表示匹配一个或多个数字。例如,模式`^\d+$`可以用来验证字符串是否只包含数字,且至少有一个数字。使用`match`或`search`方法,可以判断字符串是否满足这个条件。 然后,正则表达式中的范围运算符`[]`用于指定一个字符集,如`[1-9]`表示匹配1到9之间的任何单个数字。在示例中,模式`[1-9]`可以找到字符串"7893452"中的所有单个数字。 最后,教程介绍了几个常用的正则匹配函数:`match`、`search`和`findall`。`match`函数从字符串开头开始匹配,只匹配一次;`search`可以在字符串的任何位置开始匹配,也只匹配一次;而`findall`则会返回所有匹配的结果,以列表形式返回。 通过这些基本操作,开发者可以构建更复杂的正则表达式,实现更精细的数据提取和处理。学习并熟练掌握正则表达式,对于提升编程技能,特别是进行数据爬取和处理方面的工作,具有重要意义。