java使用xpath解析html
时间: 2023-12-14 22:34:03 浏览: 144
以下是使用Java和XPath解析HTML的步骤:
1. 首先,需要导入相关的库,包括jsoup和javax.xml.xpath。可以使用Maven或手动下载这些库。
2. 使用jsoup库读取HTML文件或从URL中获取HTML内容。例如,以下代码从URL中获取HTML内容:
```java
String url = "http://example.com";
Document doc = Jsoup.connect(url).get();
```
3. 创建XPath对象并编译XPath表达式。例如,以下代码编译XPath表达式:
```java
XPath xpath = XPathFactory.newInstance().newXPath();
XPathExpression expr = xpath.compile("//UL/LI/A[@class='orange']");
```
4. 使用XPath对象和编译的表达式来查询HTML文档。例如,以下代码查询HTML文档并打印结果:
```java
NodeList nodes = (NodeList) expr.evaluate(doc, XPathConstants.NODESET);
for (int i = 0; i < nodes.getLength(); i++) {
Node node = nodes.item(i);
System.out.println(node.getTextContent());
}
```
这将打印所有class属性为“orange”的A元素的文本内容。
阅读全文