java爬虫获取页面数据
时间: 2024-06-09 11:08:19 浏览: 85
Java爬虫可以通过模拟HTTP请求获取页面数据,常用的库有Jsoup和HttpClient。
以下是一个使用Jsoup实现的简单例子:
```
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class MyCrawler {
public static void main(String[] args) {
String url = "https://www.example.com";
try {
Document doc = Jsoup.connect(url).get();
String title = doc.title(); // 获取页面标题
String body = doc.body().text(); // 获取页面正文
System.out.println("Title: " + title);
System.out.println("Body: " + body);
} catch (IOException e) {
e.printStackTrace();
}
}
}
```
这个例子使用Jsoup的connect方法连接到指定的URL,并使用get方法获取页面内容。然后使用Jsoup的API获取页面标题和正文内容。
HttpClient也是一个常用的HTTP客户端库,使用方法类似。你可以使用HttpClient发送HTTP请求并获取响应,然后使用解析HTML的库(如Jsoup)解析响应内容。
需要注意的是,爬虫可能会违反某些网站的使用规定,应该遵守爬虫规范和网站的使用条款。