写一个java的爬取网页信息的代码
时间: 2023-05-22 14:00:47 浏览: 112
Java爬虫,爬网页源代码
当然可以,以下是一个简单的Java爬虫示例代码:
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
public class WebCrawler {
public static void main(String[] args) {
try {
// 创建URL对象
URL url = new URL("https://www.baidu.com/");
// 打开URL连接
URLConnection conn = url.openConnection();
// 设置请求头
conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36");
// 获取输入流
BufferedReader in = new BufferedReader(new InputStreamReader(conn.getInputStream()));
String line;
// 读取网页内容
while ((line = in.readLine()) != null) {
System.out.println(line);
}
in.close();
} catch (Exception e) {
e.printStackTrace();
}
}
}
这个代码可以爬取百度首页的HTML代码,并输出到控制台。当然,你可以根据自己的需求修改代码,比如修改URL地址、设置请求头、解析HTML等。
阅读全文