写一个java简单爬虫
时间: 2024-04-23 18:15:41 浏览: 126
以下是一个简单的 Java 爬虫示例:
```java
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class SimpleCrawler {
public static void main(String[] args) throws Exception {
URL url = new URL("https://www.baidu.com");
BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
String inputLine;
StringBuilder content = new StringBuilder();
while ((inputLine = in.readLine()) != null) {
content.append(inputLine);
}
in.close();
String regex = "<title>(.*?)</title>";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(content.toString());
if (matcher.find()) {
System.out.println(matcher.group(1));
} else {
System.out.println("No match found.");
}
}
}
```
这个示例使用 `java.net.URL` 类打开一个网址,然后使用 `java.io.BufferedReader` 读取网页内容。接下来使用正则表达式解析网页内容,提取网页标题并打印出来。你可以进行改进和扩展,例如使用 `java.net.HttpURLConnection` 发送 HTTP 请求,使用 `java.net.URLDecoder` 解码网址等。
阅读全文