java爬虫爬取网页内容
时间: 2023-12-31 19:15:27 浏览: 70
Java爬虫可以使用Jsoup库来获取网页内容。下面是一个简单的示例:
```java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class Spider {
public static void main(String[] args) {
try {
// 指定需要爬取的网页URL
String url = "https://www.example.com";
// 获取网页内容
Document doc = Jsoup.connect(url).get();
// 获取所有的链接
Elements links = doc.select("a[href]");
for (Element link : links) {
// 输出链接的地址和标题
System.out.println(link.attr("href") + " - " + link.text());
}
// 获取所有的图片链接
Elements images = doc.select("img[src~=(?i)\\.(png|jpe?g|gif)]");
for (Element image : images) {
// 输出图片的地址
System.out.println("Image src: " + image.attr("src"));
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
```
这个示例中通过连接到一个网页,使用Jsoup库获取了页面内容,然后获取了所有的链接和图片链接,并输出它们的地址和标题。你可以根据自己的需求来修改代码。
阅读全文