Python爬虫正则表达式基础与实例解析

5星 · 超过95%的资源 32 浏览量更新于2024-09-02 收藏 145KB PDF 举报

"本文主要介绍了Python爬虫中正则表达式的基本用法，包括正则表达式的概念、compile函数的使用以及match方法的参数和匹配对象的方法。" 正则表达式是编程语言中用于处理字符串的强大工具，尤其在Python爬虫中，用于从网页源码中提取所需数据。Python中的正则表达式主要通过`re`模块进行操作。一、正则表达式简介正则表达式是一种模式匹配工具，能够用简洁的字符串表示复杂的匹配规则。在Python中，你可以使用`re`模块提供的函数和方法来编译和执行正则表达式。例如，`re.compile()`函数可以将一个正则表达式字符串转换成一个可操作的对象，这个对象可以进行匹配、查找、替换等操作。二、`re.compile()`函数 `re.compile(pattern, flags=0)`用于编译正则表达式模式，返回一个正则表达式对象。`pattern`参数是你想要匹配的字符串，`flags`参数用于设置匹配模式，比如忽略大小写（`re.IGNORECASE`）或者多行匹配（`re.MULTILINE`）。 ```python import re p = re.compile('abcd') ``` 此时，`p`是一个正则表达式对象，可以调用其方法进行匹配。三、`re.match()`方法 `re.match(pattern, string, flags=0)`函数尝试从字符串的开始位置匹配一个模式，如果匹配成功，返回一个匹配对象；否则，返回`None`。 ```python match_obj = re.match('abcd', 'abcdefg') ``` 匹配对象提供了获取匹配信息的方法： - `group(num=0)`：返回与括号匹配的子串。`num=0`表示整个匹配的字符串，其他数字表示相应括号内的子串。 - `groups()`：返回一个元组，包含了所有括号匹配的子串，从1开始编号。四、匹配对象方法匹配对象还包含其他方法，例如： - `group(num=0)`：返回匹配的整个字符串或指定组号的子串。 - `groups()`：返回一个包含所有匹配的小组字符串的元组。 - `span()`：返回匹配子串的起始和结束索引。 - `start()`和`end()`：分别返回匹配子串的起始和结束索引。 - `replacenumber, repl)`：在原字符串中替换匹配的部分。五、正则表达式模式构建正则表达式模式可以包含各种特殊字符，如`.`表示任何单个字符，`\d`表示数字，`\w`表示字母、数字或下划线，`^`表示开始，`$`表示结束，`*`表示前面的元素零次或多次，`+`表示一次或多次，`?`表示零次或一次，`{n}`表示精确匹配n次，`{n,}`表示至少匹配n次，`{n,m}`表示匹配n到m次。六、实例分析假设我们有一个HTML字符串，要从中提取所有的链接（URL），可以使用以下正则表达式： ```python import re html = '<a href="http://example.com">Link</a> <a href="https://www.example.org">Another Link</a>' url_pattern = re.compile('<a href="(.*?)">') matches = url_pattern.findall(html) print(matches) # 输出：['http://example.com', 'https://www.example.org'] ``` 通过这个例子，我们可以看到如何使用正则表达式在HTML文本中找到特定模式的字符串。总结，Python正则表达式在爬虫中发挥着重要作用，能够高效地从大量文本中提取有用信息。熟练掌握正则表达式的基本用法和常见模式，将有助于提升数据抓取和处理的能力。

Python爬虫之正则表达式基本用法实例分析爬虫之正则表达式基本用法实例分析

本文实例讲述了Python爬虫之正则表达式基本用法。分享给大家供大家参考，具体如下：

一、简介一、简介

正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中

常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则

的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些匹配某个模式的文本。

compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和

替换。

二、使用方法二、使用方法

1、简单看一下写法

函数语法：

re.match(pattern, string, flags=0)

函数参数说明：

参数参数描述描述

pattern 匹配的正则表达式

string 要匹配的字符串。

flags 标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

匹配成功re.match方法返回一个匹配的对象，否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法匹配对象方法描述描述

group(num=0)

匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这

种情况下它将返回一个包含那些组所对应值的元组。

groups() 返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

import re

p = re.compile('abcd')

print(type(p))

#<class '_sre.SRE_Pattern'>

print(dir(p))

#['__class__', '__copy__', '__deepcopy__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__',

'__init__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__',

'findall', 'finditer', 'flags', 'fullmatch', 'groupindex', 'groups', 'match', 'pattern', 'scanner', 'search', 'split', 'sub', 'subn'] m = p.match('abcdef')

print(type(m))

#<class '_sre.SRE_Match'>

print(dir(m))

#['__class__', '__copy__', '__deepcopy__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__',

'__init__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__',

'end', 'endpos', 'expand', 'group', 'groupdict', 'groups', 'lastgroup', 'lastindex', 'pos', 're', 'regs', 'span', 'start', 'string'] print(m.group())

#abcd

print(m.group(0))

#abcd

re.match()方法值匹配字符串的开头如果不满足，就返回一个None

import re

p = re.compile('abcd')

m = p.match('abdcef')

print(m.group())

#AttributeError: 'NoneType' object has no attribute 'group'

神奇的.

import re

p = re.compile('.')

m = p.match('abdcef')

print(m.group())

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38502693

粉丝: 8
资源: 908

Python爬虫正则表达式基础与实例解析

Python爬虫：正则表达式详解与实例

Python爬虫：正则表达式详解与个人博客实战

Python爬虫正则表达式实战：个人博客抓取教程

Python爬虫基础：正则表达式详解与应用

Python中的正则表达式的使用与高级技巧

了解Python中的正则表达式及其应用

Python正则表达式学习指南：掌握Python正则表达式

python 正则表达式

python正则表达式

Python正则表达式应用实例解析

最新资源