java爬虫爬取网页内容
时间: 2023-12-31 22:15:18 浏览: 76
Java爬虫爬取网页数据
要使用Java进行网页爬取,可以使用Jsoup这个开源的Java HTML解析器库。它提供了一种简单易用的方式来获取和操作HTML文档。
以下是一个简单的Java程序,可以使用Jsoup爬取指定网站的HTML内容:
```java
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class WebScraper {
public static void main(String[] args) {
try {
// 使用Jsoup连接指定的网站
Document document = Jsoup.connect("https://www.example.com/").get();
// 获取HTML文档的标题
String title = document.title();
System.out.println("Title: " + title);
// 获取HTML文档的正文内容
String content = document.body().text();
System.out.println("Content: " + content);
} catch (IOException e) {
e.printStackTrace();
}
}
}
```
这个程序使用Jsoup.connect()方法连接指定的网站,并使用get()方法获取HTML文档。然后,可以使用title()方法获取文档的标题,使用body().text()方法获取文档的正文内容。
需要注意的是,进行网页爬取时,需要遵守网站的爬取规则,不得违反相关法律法规。
阅读全文