Python正则表达式基础：快速入门与实战示例

版权申诉

51 浏览量更新于2024-09-10 收藏 100KB PDF 举报

"Python正则表达式入门，用于初学者了解和学习正则表达式的概念和基础用法。" 在Python中，正则表达式是一种强大的文本处理工具，它允许你通过简洁的模式匹配大量字符串。在Python中，正则表达式主要通过`re`模块来实现。这个初级篇将引导你了解如何使用Python的正则表达式进行基本的文本匹配和提取。首先，正则表达式使用特定的语法，如元字符（meta-characters）和量词（quantifiers），来定义匹配的模式。例如，`.`代表任意单个字符，`*`表示前面的字符可以出现零次或多次，`+`表示至少出现一次，`?`表示零次或一次，`^`表示字符串的开始，`$`表示字符串的结束，`[]`用于定义字符集等。在我们的例子中，`(?<=<h1>).+?(?=<h1>)`是一个正则表达式，它包含两部分：正向前瞻断言`(?!...)`和正向后顾断言`(<=...)`。正向前瞻断言确保匹配的字符串后面跟着指定的模式，而正向后顾断言则确保匹配的字符串前面有指定的模式。在这个例子中，`(?<=<h1>)`确保匹配的字符串是在`<h1>`标签之后，`(?=<h1>)`则确保它在下一个`<h1>`标签之前。`.+?`匹配一个或多个任意字符，但因为`?`的存在，匹配过程尽可能少地消耗字符，避免贪婪匹配。使用正则表达式时，我们需要先编译模式，这可以通过`re.compile()`函数完成。例如： ```python pattern1 = re.compile(p1) ``` 然后，你可以使用`match`、`search`、`findall`、`split`等方法来执行匹配操作。`match`仅匹配字符串开头，`search`在整个字符串中寻找第一个匹配项，`findall`返回所有匹配项的列表，而`split`则根据模式分割字符串。对于上述的HTML例子，如果要找到`<h1>`标签之间的内容，我们可以使用`search`或`findall`： ```python matcher1 = pattern1.search(key) # 查找第一个匹配项 h1_content = matcher1.group() if matcher1 else None matches = pattern1.findall(key) # 找到所有匹配项 ``` `group()`方法用于获取匹配的字符串，如果没有找到匹配项，`None`将被返回。正则表达式的强大还在于它支持组合和嵌套，可以处理更复杂的匹配需求。例如，通过使用括号`()`来创建捕获组，你可以选择性地获取部分匹配的子串。此外，还可以使用非捕获组`(?:...)`来创建不会被`group()`方法返回的分组。在Python中，`re`模块还提供了其他高级特性，如正向和反向断言、条件表达式以及递归模式。这些特性使正则表达式成为处理文本数据的强大工具，尤其在数据清洗、文本分析和网页抓取等领域。学习正则表达式需要时间和实践，但一旦掌握，你将能够高效地处理各种字符串操作，大大提高编程效率。通过不断地练习和应用，你会发现正则表达式是解决许多文本处理问题的利器。

Python 正则表达式入门（初级篇）正则表达式入门（初级篇）

引子引子

首先说首先说正则表达式是什么？正则表达式是什么？

正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中

常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则

的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些匹配某个模式的文本。

许多程序设计语言都支持利用正则表达式进行字符串操作。例如，在Perl中就内建了一个功能强大的正则表达式引擎。正则表

达式这个概念最初是由Unix中的工具软件（例如sed和grep）普及开的。正则表达式通常缩写成“regex”，单数有regexp、

regex，复数有regexps、regexes、regexen。

引用自维基百科https://zh.wikipedia.org/wiki/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F

定义是定义，太正经了就没法用了。我们来举个栗子：假如你在写一个爬虫，你得到了

一个网页的HTML源码。其中有一段

<html><body><h1>hello world<h1></body></html>

你想要把这个hello world提取出来，但你这时如果只会python 的字符串处理，那么第一反应可能是

s = <html><body><h1>hello world<h1></body></html>

start_index = s.find('<h1>')

然后从这个位置向下查找到下一个<h1>出现这样做未尝不可，但是很麻烦不是吗。需要考虑多个标签，一不留神就多匹配到

东西了，而如果想要非常准确的匹配到，又得多加循环判断，效率太低。

这时候，正则表达式就是首选的帮手。

干货开始

入门级别入门级别

接着说我们刚才那个例子。我们如果拿正则处理这个表达式要怎么做呢？

import re

key = r"<html><body><h1>hello world<h1></body></html>"#这段是你要匹配的文本

p1 = r"(?<=<h1>).+?(?=<h1>)"#这是我们写的正则表达式规则，你现在可以不理解啥意思

pattern1 = re.compile(p1)#我们在编译这段正则表达式

matcher1 = re.search(pattern1,key)#在源文本中搜索符合正则表达式的部分

print matcher1.group(0)#打印出来

你可以尝试运行上面的代码，看看是不是和我们想象的一样（博主是在python2.7环境下）发现代码挺少挺简单？往下看。而

且正则表达式实际上要比看起来的那种奇形怪状要简单得多。

首先，从最基础的正则表达式说起。

假设我们的想法是把一个字符串中的所有”python”给匹配到。我们试一试怎么做

import re

key = r"javapythonhtmlvhdl"#这是源文本

p1 = r"python"#这是我们写的正则表达式

pattern1 = re.compile(p1)#同样是编译

matcher1 = re.search(pattern1,key)#同样是查询

print matcher1.group(0)

看完这段代码，你是不是觉得：卧槽？这就是正则表达式？直接写上去就行？

确实，正则表达式并不像它表面上那么奇葩，如果不是我们故意改变一些符号的含义时，你看到的就是想要匹配的。

所以，先把大脑清空，先认为正则表达式就是和想要匹配的字符串长得一样。在之后的练习中我们会逐步进化

初级初级

0.无论是python还是正则表达式都是区分大小写区分大小写的，所以当你在上面那个例子上把”python”换成了”Python”，那就匹配不到你

心爱的python了。

1.重新回到第一个例子中那个<h1>hello world<h1>匹配。假如我像这么写，会怎么样？

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38635323

粉丝: 9
资源: 955

Python正则表达式基础：快速入门与实战示例

Python小白爬虫(二) _使用正则表达式获取页面中我们想要的数据（案例）

正则表达式学习手册

python实现的正则表达式功能入门教程【经典】

python正则表达式学习pdf

python正则表达式\1

python正则表达式re之compile python正则表达式re之compile函数解析

python正则表达式匹配图片格式

python 正则表达式 ?

python 正则表达式判断

python正则表达式-含义用法

最新资源