java编写一个爬虫程序
时间: 2024-05-03 19:21:49 浏览: 113
由于爬虫程序需要访问网络并获取数据,因此我们需要用到Java中的网络编程相关类库,如java.net和java.io等。
以下是一个简单的Java爬虫程序,可以获取指定网页的HTML源码:
import java.net.*;
import java.io.*;
public class SimpleCrawler {
public static void main(String[] args) {
try {
URL url = new URL("http://www.baidu.com");
BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
String inputLine;
while ((inputLine = in.readLine()) != null) {
System.out.println(inputLine);
}
in.close();
} catch (IOException e) {
System.out.println("Error: " + e.getMessage());
}
}
}
该程序使用了URL类来构造URL对象,然后使用BufferedReader类读取该URL对象的输入流,最后输出HTML源码。
需要注意的是,爬虫程序应该尽量遵守Robots协议,并设置合理的User-Agent等请求头信息,以避免被网站封禁或追究法律责任。此外,爬虫程序应该具备一定的容错能力,如处理网络异常、重试失败的请求等。
相关推荐

















