XPath与lxml模块详解：爬虫必备基础知识

186 浏览量更新于2024-08-30 收藏 160KB PDF 举报

本文档详细介绍了XPath语法和Python中的lxml模块，旨在帮助读者掌握如何在XML和HTML解析中高效地使用XPath。一、XPath是什么？ XPath是XML Path Language的缩写，它是一种在XML文档中查找信息的语言，用于选取XML文档中的元素、属性、文本等节点。XPath通过路径表达式来定位这些节点，使得数据的提取和处理更加方便。二、XPathHelper插件 XPathHelper是Chrome浏览器的一个辅助插件，专为爬虫开发者设计，用于辅助确定和测试XPath表达式。用户可以通过它快速选取和查看页面元素的XPath路径，实时编辑并验证表达式的正确性。三、XPathHelper安装与使用在Chrome浏览器中，可以通过开发者模式加载已解压的扩展程序来安装XPathHelper。安装后，用户可以通过按Shift键选择页面元素，插件会显示所选元素的XPath路径，并支持编辑和即时反馈结果。四、XPath语法 XPath语法包括节点选取、谓语、轴、运算符等多个部分： 1. 节点语法：XPath使用路径表达式选取节点，如`nodename`选取所有名为nodename的元素，`/`表示根节点，`.`表示当前节点。 2. 谓语：通过方括号`[]`来筛选特定条件的节点，如`//element[condition]`选取满足条件的element节点。 3. 选取未知节点：`*`通配符可以选取任何类型的节点，`//*`选取所有元素节点。 4. 选取若干路径：`|`操作符用于选取多个路径，如`path1 | path2`选取path1和path2路径下的所有节点。 5. XPath轴：轴描述了节点之间的关系，如`child::`表示子节点，`parent::`表示父节点，`attribute::`表示属性。五、XPath轴和位置路径表达式 XPath轴提供了在节点树中导航的方法，如`following-sibling::`表示后续同级节点，`preceding-sibling::`表示前序同级节点。位置路径表达式如`node()[position()=1]`选取第一个node节点。六、XPath运算符 XPath支持多种运算符，如： - `=`用于比较相等 - `!=`用于比较不等 - `>`、`<`、`>=`、`<=`比较大小 - `//`表示全局搜索 - `..`返回当前节点的父节点 - `text()`选取当前节点的所有文本内容七、XPath其他知识点 XPath还可用于字符串、数字和布尔值的操作，如`string-length()`计算字符串长度，`number()`转换为数字，`starts-with()`判断字符串是否以指定字符开头。八、lxml库 lxml是Python中强大的XML和HTML处理库，支持XPath语法： 1. 基本使用：lxml提供ElementTree API，通过创建Element对象来处理XML或HTML。 2. 从文件读取：使用`lxml.etree.parse()`函数解析XML或HTML文件。 3. 使用XPath：利用`Element.xpath()`方法执行XPath表达式，返回匹配的节点列表。 4. 代码实例：例如，`tree = etree.parse('file.xml')`解析XML文件，`elements = tree.xpath('//element')`选取所有element元素。通过学习XPath和lxml，开发者可以更有效地抓取和解析网页数据，为网络爬虫和数据处理提供强大支持。

【爬虫学得好，基础少不了】：【爬虫学得好，基础少不了】：XPath语法和语法和lxml模块模块(详解详解)

文章目录文章目录一、什么是XPath？二、xpath helper插件三、xpath helper安装使用方法四、XPath语法4.1 节点语法4.2 节点实例

4.3 谓语（Predicates）4.4 选取未知节点4.5 选取若干路径五、XPath 轴5.1 轴常用语法5.2 位置路径表达式5.3 步（step）的

用法：5.4 步的语法：5.5 实例六、XPath 运算符6.1 XPath 表达式中常用运算符七、XPath其他7.1 使用方式：7.2 需要注意的

知识点：八、lxml库8.1 基本使用：8.2 从文件中读取html代码：8.3 在lxml中使用xpath语法8.4 代码实例

一、什么是一、什么是XPath？？

xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进

行遍历。

二、二、xpath helper插件插件

xpath helper插件是一款免费的chrome爬虫网页解析工具。可以帮助用户解决在获取xpath路径时无法正常定位等问题。该插

件主要能帮助你在各类网站上通过按shift键选择想要查看的页面元素来提取查询其代码，同时你还能对查询出来的代码进行编

辑，而编辑出的结果将立即显示在旁边的结果框中。

三、三、xpath helper安装使用方法安装使用方法

Chrome插件XPath Helper。

安装方法：

https://download.csdn.net/download/weixin_42444693/12265783 ，下载安装包解压到本地。 (本人实测上传，记得看压缩包

说明)

谷歌浏览器输入 chrome://extensions/ 进入拓展程序界面

打开开发者模式，选择加载已解压的扩展程序，选择刚刚解压的文件路径打开即可

重启浏览器使用

提示：如果删除文件夹会导致拓展功能无法使用，最好不要将压缩包解压到桌面安装使用

四、四、XPath语法语法

在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为

节点树来对待的。树的根被称为文档节点或者根节点。

4.1 节点语法节点语法

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

下面列出了最有用的路径表达式：

表达式表达式描述描述

nodename 选取此节点的所有子节点。

/ 从根节点选取。

// 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。

. 选取当前节点。

… 选取当前节点的父节点。

@ 选取属性。

4.2 节点实例节点实例

路径表达式路径表达式结果结果

bookstore 选取 bookstore 元素的所有子节点。

/bookstore

选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路

径！

bookstore/book 选取属于 bookstore 的子元素的所有 book 元素。

//book 选取所有 book 子元素，而不管它们在文档中的位置。

bookstore//book 选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。

//@lang 选取名为 lang 的所有属性。

4.3 谓语（谓语（Predicates））

谓语用来查找某个特定的节点或者包含某个指定的值的节点。谓语被嵌在方括号中。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38693720

粉丝: 10
资源: 900

XPath与lxml模块详解：爬虫必备基础知识

Python爬虫入门：使用lxml库和XPath解析网页

Python lxml库详解：高效处理XML与HTML

全面掌握Python爬虫技术：从urllib到Scrapy框架详解

Python爬虫基础之XPath语法与lxml库的用法详解

python3 xpath和requests应用详解

lxml

一个简单的爬虫demo使用了一些Xpath技术

Python爬虫实战：HTML基础与文本处理详解

Python爬虫实战案例：hao123网站数据抓取详解

lxml：Python的高效HTML/XML解析库与XPath详解

最新资源