Python正则表达式提取数据教程

需积分: 0 39 浏览量更新于2024-07-01 收藏 1.08MB PDF 举报

"数据爬取和正则表达式的应用教程" 在数据爬取过程中，正则表达式（Regular Expression）是一种强大的工具，用于从文本中提取特定模式的数据。本教程由奇酷学院的高级讲师郭建涛讲解，重点介绍了如何在Python中运用正则表达式进行数据提取。首先，正则表达式可以实现单字符和多字符的匹配，以及匹配分组。匹配分组允许我们捕获多个匹配的部分，并在后续处理中分别引用它们。例如，通过括号 `( )` 来定义一个分组。接着，讲解了Python中与正则表达式相关的几个核心函数： 1. `match()` 方法：从字符串的起始位置开始匹配，如果找到匹配项，则返回匹配对象，否则返回 `None`。 2. `search()` 方法：在整个字符串中查找匹配项，同样返回第一个匹配的对象或 `None`。 3. `findall()` 方法：找出所有匹配项并返回一个列表。即使匹配的是空字符串，也会被包含在内。 4. `finditer()` 方法：与 `findall()` 类似，但返回的是一个迭代器，每次迭代返回一个匹配对象。 5. `split()` 方法：根据正则表达式拆分字符串，返回一个列表。 6. `sub()` 方法：替换匹配到的字符串，将原始字符串中的模式替换为新的字符串。在实际数据提取中，经常需要从HTML或XML文档中抓取特定标签内的内容。示例中，讲师给出了两个案例： 1. 抓取 `title` 标签内容：首先，使用 `urllib.request` 和 `chardet` 库来获取网页内容，并确定其编码。然后，解码响应的HTML内容，使用正则表达式 `r'<title>(.*?)</title>'` 查找 `title` 标签之间的文本。这里的 `(.*?)` 是非贪婪匹配，会捕获尽可能少的字符。通过 `re.compile()` 编译正则表达式，并使用 `re.S`（单行模式）和 `re.M`（多行模式）来确保换行符也被考虑在内。最后，使用 `re.search()` 找到第一个匹配项，并通过 `group(1)` 获取第一个分组（即 `title` 标签的内容）。 2. 抓取 `a` 超链接标签内容：此案例类似于前面的 `title` 标签，但匹配的是 `a` 标签。这可以扩展为从HTML页面中抓取所有的链接地址，对于网络爬虫来说是非常常见的需求。通过这些基本操作，我们可以有效地从网页中抽取所需信息，为数据分析或数据挖掘工作提供数据来源。学习和掌握正则表达式对于任何想要从事数据爬取或文本处理的IT从业者来说都是至关重要的技能。

python 之――――用正则表达式提取数据

4 / 18 奇酷学院高级讲师：郭建涛

'''

# 获取<tr></tr>间内容

res = r'<tr>(.*?)</tr>'

texts = re.findall(res, content, re.S | re.M)

for m in texts:

print(m)

# 获取<th></th>间内容

for m in texts:

res_th = r'<th>(.*?)</th>'

m_th = re.findall(res_th, m, re.S | re.M)

for t in m_th:

print(t)

# 直接获取<td></td>间内容

res = r'<td>(.*?)</td><td>(.*?)</td>'

texts = re.findall(res, content, re.S | re.M)

for m in texts:

print(m[0], m[1])

抓取标签中的参数

案例：抓取超链接标签的 URL

import re

content = '''

'''

res = r'href="(.+?)"'

urls = re.findall(res, content, re.I | re.S | re.M)

for url in urls:

print(url)

剩余17页未读，继续阅读

赶路的稻草人

粉丝: 32
资源: 330

Python正则表达式提取数据教程

使用正则表达式取出数据

bs4_链家数据爬取_链家数据爬取_

菜谱网站爬取_菜谱网站爬取_differentofl_菜谱_

京东商城商品信息爬取_爬虫_京东_

爬取微博数据_爬取微博_python爬虫_爬取微博数据并可视化_数据开发_微博分析_

小红书主页爬取_小红书数据爬取教程

get_tz_detail_improve1.py_blow4ju_股吧帖子爬取_

zhp.zip_python爬取飞猪网机票_爬取飞猪_爬取飞猪网_爬猪网

R爬虫小白实例教程-源代码及爬取后数据.rar_R爬虫_R爬虫示例学习_爬取数据R_爬虫_爬虫教程

计算机大赛文件_航班信息爬取功能_爬取航班信息_

最新资源