python爬虫xpath提取文本
时间: 2023-08-28 17:17:18 浏览: 122
利用xpath提取标签下所有文本
如果你需要使用 Python 爬虫来提取网页中的文本,可以使用 lxml 库来解析 HTML 或 XML 文档并使用 XPath 表达式来提取所需内容。以下是一个简单的示例代码:
```python
import requests
from lxml import etree
# 发送 HTTP 请求获取网页内容
url = 'https://example.com'
response = requests.get(url)
# 使用 lxml 解析 HTML 文档
html = etree.HTML(response.text)
# 使用 XPath 表达式提取文本
text = html.xpath('//div[@class="example"]/p/text()')[0]
# 打印提取到的文本
print(text)
```
在上面的代码中,我们首先使用 requests 库发送 HTTP 请求并获取网页内容。然后,我们使用 lxml 库解析 HTML 文档并使用 XPath 表达式 `//div[@class="example"]/p/text()` 提取 `<div class="example">` 元素下的第一个 `<p>` 元素的文本内容。最后,我们将提取到的文本打印出来。
阅读全文