jsoup采集html
时间: 2023-11-01 12:56:59 浏览: 133
jsoup抓取网页内容
4星 · 用户满意度95%
JSoup是一个Java的HTML解析器,它提供了一种非常方便的方式来从HTML文档中获取和操作数据。以下是一个简单的JSoup采集HTML的示例:
```java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JsoupExample {
public static void main(String[] args) {
try {
// 从URL获取HTML内容
Document doc = Jsoup.connect("https://www.example.com/").get();
// 获取页面标题
String title = doc.title();
System.out.println("Title: " + title);
// 获取所有链接
Elements links = doc.select("a[href]");
for (Element link : links) {
System.out.println("Link: " + link.attr("href"));
}
// 获取页面中的所有图片
Elements images = doc.select("img[src~=(?i)\\.(png|jpe?g|gif)]");
for (Element image : images) {
System.out.println("Image: " + image.attr("src"));
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
```
上述代码使用JSoup连接到指定的URL,并获取HTML内容。然后,它使用JSoup的选择器语法来获取页面标题、所有链接和所有图片。最后,它打印这些元素的内容。
使用JSoup采集HTML非常方便,它提供了强大的选择器语法和灵活的API,使得解析HTML变得非常简单。
阅读全文