首页写一个java的爬取网页信息的代码

写一个java的爬取网页信息的代码

时间: 2023-05-22 14:00:47 浏览: 112

Java爬虫,爬网页源代码

在url地址输入地址就行,每隔几秒自动爬取

当然可以，以下是一个简单的Java爬虫示例代码： import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection; public class WebCrawler { public static void main(String[] args) { try { // 创建URL对象 URL url = new URL("https://www.baidu.com/"); // 打开URL连接 URLConnection conn = url.openConnection(); // 设置请求头 conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"); // 获取输入流 BufferedReader in = new BufferedReader(new InputStreamReader(conn.getInputStream())); String line; // 读取网页内容 while ((line = in.readLine()) != null) { System.out.println(line); } in.close(); } catch (Exception e) { e.printStackTrace(); } } } 这个代码可以爬取百度首页的HTML代码，并输出到控制台。当然，你可以根据自己的需求修改代码，比如修改URL地址、设置请求头、解析HTML等。

阅读全文