首页requests+xpath

requests+xpath

时间: 2024-10-15 22:20:48 浏览: 7

`requests` 和 `xpath` 是两个在 Python 中常用于网络爬虫和数据抓取的库。 `requests` 库是一个非常流行的 HTTP 客户端库，它允许开发者发送 HTTP 请求，获取网页内容，并处理响应。你可以使用它来获取 HTML 网页，然后进一步操作数据，比如下载文件、解析 JSON 或 XML 数据等。 `lxml` 或 `beautifulsoup4` 这些库通常会配合 `requests` 使用，它们提供了基于 XPath 的解析功能。XPath 是一种用于文档对象模型（DOM）的语言，用于在 XML 或 HTML 文档中选择节点。通过 `xpath`，你可以根据特定的路径表达式找到文档中你需要的数据，如特定标签、属性或文本内容。举个例子： ```python import requests from lxml import etree # 发送 GET 请求并获取 HTML 内容 response = requests.get('http://example.com') html_content = response.text # 使用 xpath 解析 HTML tree = etree.HTML(html_content) data_node = tree.xpath('//div[@class="my-class"]') for node in data_node: print(node.text) ``` 在这个例子中，我们首先使用 `requests` 获取网页内容，然后用 `etree` 模块构建了 HTML 的 DOM 树，接着使用 XPath 表达式选择所有 class 为 "my-class" 的 `<div>` 元素，并提取其文本内容。