requests+xpath
时间: 2024-10-15 22:20:48 浏览: 7
`requests` 和 `xpath` 是两个在 Python 中常用于网络爬虫和数据抓取的库。
`requests` 库是一个非常流行的 HTTP 客户端库,它允许开发者发送 HTTP 请求,获取网页内容,并处理响应。你可以使用它来获取 HTML 网页,然后进一步操作数据,比如下载文件、解析 JSON 或 XML 数据等。
`lxml` 或 `beautifulsoup4` 这些库通常会配合 `requests` 使用,它们提供了基于 XPath 的解析功能。XPath 是一种用于文档对象模型(DOM)的语言,用于在 XML 或 HTML 文档中选择节点。通过 `xpath`,你可以根据特定的路径表达式找到文档中你需要的数据,如特定标签、属性或文本内容。
举个例子:
```python
import requests
from lxml import etree
# 发送 GET 请求并获取 HTML 内容
response = requests.get('http://example.com')
html_content = response.text
# 使用 xpath 解析 HTML
tree = etree.HTML(html_content)
data_node = tree.xpath('//div[@class="my-class"]')
for node in data_node:
print(node.text)
```
在这个例子中,我们首先使用 `requests` 获取网页内容,然后用 `etree` 模块构建了 HTML 的 DOM 树,接着使用 XPath 表达式选择所有 class 为 "my-class" 的 `<div>` 元素,并提取其文本内容。