写一个java版的百度爬虫
时间: 2023-01-31 13:54:58 浏览: 233
基于http的Java爬虫爬取百度新闻
百度爬虫是一个程序,它可以模拟人类在百度上搜索关键词并获取搜索结果页面的过程。下面是一个使用 Java 写的简单的百度爬虫的例子:
```java
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
public class BaiduSpider {
public static void main(String[] args) throws Exception {
// 要爬取的关键词
String keyword = "java";
// 构造百度搜索 URL
String baiduSearchUrl = "https://www.baidu.com/s?wd=" + keyword;
// 创建 URL 对象
URL url = new URL(baiduSearchUrl);
// 打开连接
URLConnection connection = url.openConnection();
// 设置 User-Agent 头部,模拟浏览器发出的请求
connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36");
// 使用 BufferedReader 读取网页源代码
BufferedReader reader = new BufferedReader(new InputStreamReader(connection.getInputStream()));
String line;
while ((line = reader.readLine()) != null) {
// 输出网页源代码
System.out.println(line);
}
reader.close();
}
}
```
这个爬虫的原理是:使用 Java 的 `URL` 类打开百度搜索 URL,并使用 `URLConnection` 发出 HTTP 请求。然后使用 `BufferedReader` 读取网页源代码并输出到控制台。
这只是一个简单的例子,实际上百度爬虫还有很多其他的功能,比如:
- 自动翻页,爬取
阅读全文