java中jsoup爬取网页的多种案例
时间: 2024-01-14 19:03:49 浏览: 111
【Java爬虫项目】Jsoup爬取中文医学图谱
1. 爬取网页标题
使用Jsoup.connect()连接到目标网页并使用get()方法获取网页内容。然后使用select()方法选取网页中的标题元素。
```
Document doc = Jsoup.connect("http://www.example.com/").get();
String title = doc.select("title").text();
System.out.println(title);
```
2. 爬取网页中的所有链接
使用Jsoup.connect()连接到目标网页并使用get()方法获取网页内容。然后使用select()方法选取网页中的所有链接元素,并遍历每个元素提取链接地址。
```
Document doc = Jsoup.connect("http://www.example.com/").get();
Elements links = doc.select("a[href]");
for (Element link : links) {
String linkUrl = link.attr("href");
System.out.println(linkUrl);
}
```
3. 爬取网页中的图片链接
使用Jsoup.connect()连接到目标网页并使用get()方法获取网页内容。然后使用select()方法选取网页中的所有图片元素,并遍历每个元素提取图片地址。
```
Document doc = Jsoup.connect("http://www.example.com/").get();
Elements images = doc.select("img[src]");
for (Element image : images) {
String imageUrl = image.attr("src");
System.out.println(imageUrl);
}
```
4. 爬取网页中的表格数据
使用Jsoup.connect()连接到目标网页并使用get()方法获取网页内容。然后使用select()方法选取网页中的所有表格元素,并遍历每个元素提取表格数据。
```
Document doc = Jsoup.connect("http://www.example.com/").get();
Elements tables = doc.select("table");
for (Element table : tables) {
Elements rows = table.select("tr");
for (Element row : rows) {
Elements cells = row.select("td");
for (Element cell : cells) {
String cellText = cell.text();
System.out.println(cellText);
}
}
}
```
5. 爬取网页中的表单数据
使用Jsoup.connect()连接到目标网页并使用get()方法获取网页内容。然后使用select()方法选取网页中的所有表单元素,并遍历每个元素提取表单数据。
```
Document doc = Jsoup.connect("http://www.example.com/").get();
Elements forms = doc.select("form");
for (Element form : forms) {
String actionUrl = form.attr("action");
String method = form.attr("method");
System.out.println("Action URL: " + actionUrl);
System.out.println("Method: " + method);
Elements inputs = form.select("input");
for (Element input : inputs) {
String name = input.attr("name");
String value = input.attr("value");
System.out.println(name + ": " + value);
}
}
```
阅读全文