XPath基础教程:定位HTML/XML元素与高级选择技巧

需积分: 33 4 下载量 11 浏览量 更新于2024-07-26 收藏 311KB PDF 举报
XPath是一种强大的用于在HTML、XML文档中查找和选择元素的语言,它的工作方式类似于在文件系统中定位文件。本教程将详细介绍XPath的基本语法和常用功能。 1. **基本语法**:XPath的路径表达式类似于文件系统路径,斜线"/"用于表示绝对路径,指向文档中特定元素,而双斜线"//"则表示在整个文档树中搜索匹配的元素,不分层级。 2. **通配符**:星号"*"表示选择所有由其前面路径定位的元素,方块号内的表达式可以指定元素位置,例如"//div[2]"选择第二个div元素。last()函数则选取选择集中最后的一个元素。 3. **属性选择**:XPath允许根据元素的属性进行选择,如normalize-space()函数用于清理字符串中的空格。count()函数用于计算元素的数量,name()、start-with()和contains()函数用于字符串匹配。 4. **数值函数**:string-length()返回字符串长度,需要注意特殊字符转义。例如,使用"&lt;"代替 "<" 和 "&gt;"代替 ">"。 5. **路径组合**:XPath支持路径的逻辑或操作,使用 "|" 连接多个路径,以增加选择的灵活性。 6. **轴(Axes)**:XPath提供了几种轴来导航文档结构,如child轴(默认轴,代表子元素)、descendant轴(所有后代,包括子节点及其子代)、parent轴(直接父元素)、ancestor轴(所有祖先节点,包括根节点)、following-sibling轴(后续同级兄弟)和preceding-sibling轴(先前同级兄弟)。 通过这些实例和概念,学习者可以掌握如何有效地在复杂XML或HTML文档中定位和提取所需信息,这对于网页抓取、数据解析和自动化测试等任务至关重要。熟练运用XPath不仅可以提高开发效率,也能更好地理解和维护基于XML或HTML的应用程序。