Python爬虫入门：正则表达式实战——提取邮箱

77 浏览量更新于2024-08-28 收藏 111KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"这篇教程是关于Python爬虫的正则表达式完全指南，主要面向初学者，旨在帮助理解和掌握正则表达式在Python中的应用，特别是对于文本提取和爬虫项目中的实用性。教程通过实例展示了如何使用正则表达式来处理HTML文本，提取邮箱地址。" 在这篇Python爬虫入门教程中，我们将深入学习正则表达式，这是一种强大的文本处理工具，广泛应用于编程语言中，包括Python。正则表达式能够高效地进行文本匹配、查找、替换和验证，对于爬虫工作来说至关重要，因为它能够帮助我们从复杂的网页结构中提取所需的数据。首先，我们来看一个实际问题：如何从HTML文本中提取所有的邮箱地址。在提供的HTML代码片段中，包含了几个邮箱地址，但它们被嵌套在不同的HTML元素中。如果不懂正则表达式，处理这种情况可能会变得棘手。在Python中，我们可以使用`re`模块来实现正则表达式的操作。例如，要匹配邮箱地址，我们需要知道邮箱的一般格式，通常是`username@domain.com`的形式。一个简单的正则表达式可能如下所示： ```python import re email_regex = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b' ``` 这个正则表达式会匹配大多数常见的邮箱格式。`r`前缀表示这是一个原始字符串，避免`\`被解释为转义字符。接下来，我们可以使用`re.findall()`函数来查找所有匹配的邮箱地址： ```python html = """...（上面提供的HTML代码）...""" emails = re.findall(email_regex, html) for email in emails: print(email) ``` 这将打印出HTML文本中所有的邮箱地址。正则表达式的强大之处在于其灵活性，可以适应各种复杂的模式匹配需求。除了`findall()`，`re`模块还提供了其他方法，如`search()`用于查找第一个匹配项，`match()`用于检查字符串是否以特定模式开始，以及`sub()`用于替换匹配的字符串。在Python中，字符串有两种形式：常规字符串（如`"hello"`）和原始字符串（如`r"hello"`）。原始字符串不处理转义字符，因此在处理包含特殊字符的字符串时，如果不想让`\`被解释，可以使用原始字符串。这篇教程会逐步介绍正则表达式的语法，包括元字符、量词、分组、边界和选择等概念，以及如何在Python中使用它们。通过学习，你将能够熟练运用正则表达式来处理和解析文本，这对于Python爬虫项目尤其有用。

资源详情

资源推荐

python爬虫入门教程爬虫入门教程–正则表达式完全指南（五）正则表达式完全指南（五）

前言前言

正则表达式处理文本有如疾风扫秋叶，绝大部分编程语言都内置支持正则表达式，它应用在诸如表单验证、文本提取、替换等

场景。爬虫系统更是离不开正则表达式，用好正则表达式往往能收到事半功倍的效果。

介绍正则表达式前，先来看一个问题，下面这段文本来自豆瓣的某个网页链接，我对内容进行了缩减。问：如何提取文本中所

有邮箱地址呢？

html = """

<style>

.qrcode-app{

display: block;

background: url(/pics/qrcode_app4@2x.png) no-repeat;

}

</style>

<p class="">30604259@qq.com麻烦楼主</p>

</div>

"""

如果你还没接触过正则表达式，我想对此会是一筹莫展，不用正则，似乎想不到一种更好的方式来处理，不过，我们暂且放下

这个问题，待学习完正则表达式之后再来考虑如何解决。

字符串的表现形式字符串的表现形式

Python 字符串有几种表现形式，以u开头的字符串称为Unicode字符串，它不在本文讨论范围内，此外，你应该还看到过这两

种写法：

>>> foo = "hello"

>>> bar = r"hello"

前者是常规字符串，后者 r 开头的是原始字符串，两者有什么区别？因为在上面的例子中，它们都是由普通文本字符组成的

串，在这里没什么区别，下面可以证明

>>> foo is bar

True

>>> foo == bar

True

但是，如果字符串中包括有特殊字符，会是什么情况呢？再来看一个例子：

>>> foo = "\n"

>>> bar = r""

>>> foo, len(foo)

('', 1)

>>> bar, len(bar)

('\n', 2)

>>> foo == bar

False

>>>

“” 是一个转义字符，它在 ASCII 中表示换行符。而 r”” 是一个原始字符串，原始字符串不对特殊字符进行转义，它就是你

看到的字面意思，由 “\” 和 “n” 两个字符组成的字符串。

定义原始字符串可以用小写r或者大写R开头，比如 r”” 或者 R”” 都是允许的。在 Python 中，正则表达式一般用原始字符串

的形式来定义，为什么呢？

举例来说，对于字符 “” 来说，它在 ASCII 中是有特殊意义的，表示退格键，而在正则表达式中，它是一个特殊的元字符，

用于匹配一个单词的边界，为了能让正则编译器正确地表达它的意义就需要用原始字符串，当然也可以使用反斜杠 “\” 对常规

定义的字符串进行转义

>>> foo = "\"

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38698174

粉丝: 3
资源: 980

Python爬虫入门：正则表达式实战——提取邮箱

python爬虫入门教程--正则表达式完全指南（五）

python爬虫入门到精通必备的书籍.docx

python 爬虫正则表达式_Python爬虫正则表达式常用符号和方法

python爬虫如何应用正则表达式

python爬虫正则表达式.

python app版本号的正则表达式

python正则表达式re之compile python正则表达式re之compile函数解析

python函数中如何传入正则表达式变量

python爬虫正则表达式

python正则表达式compile

Python爬虫正则表达式

python正则表达式生成

python 逆向生成 正则表达式

python 正则表达式 ?

python正则表达式和爬虫

python爬虫正则表达式匹配空白符

python unicode字符直接作为正则表达式

最新版python 安装正则表达式

python 正则表达式爬虫

python正则表达式学习pdf

最新资源

python 逆向生成正则表达式