Python爬虫教程：免费资源与正则表达式解析

需积分: 0 171 浏览量更新于2024-06-26 收藏 79KB DOCX 举报

"该资源为Python爬虫相关的学习资料，提供了免费下载，涵盖了Python爬虫实战、第三方库的使用以及正则表达式的基础知识。" Python爬虫是数据挖掘和自动化网页信息抓取的重要工具，它允许开发者通过编写程序来自动化网络上的数据获取。在Python中，常用的爬虫第三方库包括BeautifulSoup4（bs4）、lxml和requests。 BeautifulSoup4是一个用于解析HTML和XML文档的库，它提供了一种简单易用的方式来导航、搜索和修改解析树。例如，你可以使用它来查找具有特定属性或类名的元素： ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html_content, 'html.parser') elements = soup.find_all(class_='even') ``` lxml库则是一个更强大的解析库，它支持XPath和CSS选择器，可以更高效地处理大型文档。XPath是一种在XML文档中查找信息的语言，如获取所有class为even的标签： ```python from lxml import etree html = etree.HTML(text) elements = html.xpath('//*[contains(@class, "even")]') ``` requests库用于发送HTTP请求，它是Python中最常用的HTTP库之一，可以方便地获取网页内容： ```python import requests response = requests.get('http://example.com') html_content = response.text ``` 正则表达式是Python中进行文本匹配和处理的重要工具。以下是一些常见的正则表达式符号和用法： - `.`：匹配任何单个字符，除了换行符。 - `[\d\D]`：匹配任何数字或非数字字符。 - `\s`：匹配任何空白字符，包括\n、\t、\r和空格。 - `\S`：匹配任何非空白字符。 - `\w`：匹配字母、数字或下划线。 - `\W`：匹配非字母、数字或下划线的字符。 - `*`：匹配前面的字符0次或多次。 - `+`：匹配前面的字符1次或多次。 - `?`：匹配前面的字符0次或1次。 - `{m}`：匹配前面的字符恰好m次。 - `{m,n}`：匹配前面的字符m到n次。 - `^`：匹配字符串的开始。 - `$`：匹配字符串的结束。 - `\A`和`\Z`：分别表示字符串的开始和结束。正则表达式还可以配合不同的函数使用，如： - `match()`：从字符串开头开始匹配。 - `search()`：在字符串中任意位置匹配。 - `group()`：返回匹配的子串，`group(0)`表示整个匹配的子串，`group(1)`等表示分组匹配的内容。 - `groups()`：返回一个包含所有分组的元组，不包括整个匹配的分组。最后，`sub()`函数用于替换字符串中满足正则表达式的所有实例： ```python import re new_string = re.sub(r'\d+', '0', old_string) ``` `split()`函数则可以按正则表达式分割字符串： ```python split_result = re.split(r'\s+', text) ``` 以上就是Python爬虫的基本概念和常用库的使用，以及正则表达式的常见操作。通过这些知识，你可以开始构建自己的Python爬虫程序，实现对网络数据的抓取和处理。

选取属性

选取所有属性

[@attrib]

选取具有指定属性的所有元素

[@attrib=‘value’]

选取指定属性具有匹配值的所有元素

[tag]

选取具有指定元素的直接⼦节点

[tag=‘text’]

选取具有指定元素并且⽂本内容是text的节点

例：

表达式

说明

/ bookstore/ book[ 1 ]

属于 bokstore ⼦元素的第⼀个 book 元素

/bookstore/book[position()<4]

选取最前⾯ 3 个属于 bokstore ⼦元素的 book 元素

//title[@lang = ‘eng’]

选取所有 title 元素，并且这些元素拥有值为 eng 的 lang 属性

2.基本操作

-导⼊lxml： from lxml import etree

- ⽣成XPath的解析对象：

html = etree.HTML(text) #调⽤HTML()⽣成解析对象， text类型为字符串类型

html = etree.parse(text.xml) #调⽤parse()解析xml⽂件

-解析对象输出代码 result = etree.tostring(html,encoding = 'utf-8') (了解)

-解析result = html.xpath(‘XPath表达式’)

XPath返回的是列表类型

例：

1.获取所有 tr 标签：

trs = html.xpath("//tr")

for tr in trs:

print(etree.tostring(tr ,encoding = 'utf-8') .decode("utf-8"))

2.获取第⼆个 tr 标签：

trs = html.xpath("//tr[2]")

3.获取所有 class = even 的标签：

trs = html.xpath("//tr[@class='even']")

4.在当前标签下：

href = tr .xpath(".//a") #

⼀定要加

不然

默认在全局寻找，忽视

标签限制

选取所有元素节点与元素名

表达式

，

说明

通配符

剩余14页未读，继续阅读

文皮真的疲

粉丝: 0
资源: 9

Python爬虫教程：免费资源与正则表达式解析

最新资源