XPath解析：提取XML与HTML数据

需积分: 0 93 浏览量更新于2024-08-05 收藏 72KB PDF 举报

"08.xpath解析1" XPath 是一种在 XML 和 HTML 文档中查找信息的语言。它被设计用来高效地选取 XML 数据，并且在 HTML 解析中也常被用于提取或操作页面元素。XPath 使用路径表达式来选取节点，这些路径表达式类似于文件系统的路径，用来定位文件系统中的文件。在 XML 文档中，XPath 可以选取节点集，包括元素、属性、文本、命名空间和处理指令。XPath 的主要功能包括： 1. 选取节点：例如，`/book` 选取根元素下的所有 `book` 元素。 2. 查找特定属性：如 `@id` 用于选取属性，`//book/@id` 将选取文档中所有 `book` 元素的 `id` 属性。 3. 遍历子节点：`//book/author/nick` 选取所有 `book` 元素下的 `author` 元素中的 `nick` 子元素。 4. 过滤节点：XPath 支持使用条件表达式，如 `//book[price>10]` 选取价格大于 10 的 `book` 元素。 5. 计算节点数量：`count(//book)` 返回文档中 `book` 元素的数量。 6. 操作字符串、数值和布尔值：XPath 提供内置函数对节点内容进行处理，如 `concat(name, ' ', price)` 结合 `name` 和 `price` 的内容。在给定的 Python 示例中，使用了 `lxml` 库来处理 HTML 文档和执行 XPath 查询。`lxml` 是一个强大的库，它提供了高效的 XML 和 HTML 处理能力。首先，通过 `pip install lxml` 安装库。接着，导入 `etree` 模块，然后可以将 HTML 字符串解析成 XML 树结构，使用 `etree.XML()` 函数。一旦有了树对象，就可以使用 `xpath()` 方法执行 XPath 查询，它会返回一个节点列表。示例代码中展示了如何选取和打印 `book` 元素的不同部分，如 `id`、`name`、`price` 和 `author` 下的 `nick` 子元素。XPath 表达式如 `//book/id`、`//book/name` 等用于选取相应元素。此外，还演示了如何根据属性值选取 `nick` 元素，例如 `//book/author/nick[@id='10086']`。 XPath 的强大之处在于它的灵活性和表达能力，使得开发者能够方便地定位和操作 XML 或 HTML 文档中的任何部分。结合 Python 的 `lxml` 库，可以实现复杂的网页抓取和数据提取任务。

xpath解析

XPath是⼀⻔在 XML ⽂档中查找信息的语⾔. XPath可⽤来在 XML

⽂档中对元素和属性进⾏遍历. ⽽我们熟知的HTML恰巧属于XML的

⼀个⼦集. 所以完全可以⽤xpath去查找html中的内容.

⾸先, 先了解⼏个概念.

在上述html中,

1. book, id, name, price....都被称为节点.

2. Id, name, price, author被称为book的⼦节点

3. book被称为id, name, price, author的⽗节点

<book>

</author>

</book>

下载后可阅读完整内容，剩余4页未读，立即下载

曹将

粉丝: 26
资源: 308

XPath解析：提取XML与HTML数据

JDOM中XPath.selectNodes()和XPath.selectSingleNode()用法

关于引入com.sun.org.apache.xpath.internal.operations.String后右键RUN选项消失

9.xpath解析案例-爬取免费简历模板.py

Practical.Transformation.with.XSLT.and.XPath.pdf

selector.xpath(xpath_lan).extract() 和 selector.xpath(xpath_lan).getall()的区别

job_label = tree.xpath('//script[@type="text/javascript"]')[2].text解析

org.apache.xpath

最新资源