帮我写一个java爬虫
时间: 2023-02-06 22:23:49 浏览: 152
好的,我会尽力帮助你写一个简单的 Java 爬虫。
首先,我们需要使用 Java 的 URL 类来打开一个网站的连接。这样,我们就可以使用 Java 的 BufferedReader 类来读取网站上的 HTML 代码。
其次,我们可以使用正则表达式或者其他的文本解析工具(比如说 JSoup)来提取我们感兴趣的信息。
最后,我们可以使用 Java 的 FileWriter 类来将信息写入本地文件,或者使用 JDBC 将信息写入数据库。
下面是一个简单的 Java 爬虫的例子,它会爬取网站上的所有链接:
```
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class SimpleCrawler {
public static void main(String[] args) {
try {
// 打开网站的连接
URL url = new URL("https://www.example.com");
BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream()));
// 使用正则表达式提取链接
String line;
Pattern linkPattern = Pattern.compile("<a\\s+href\\s*=\\s*\"?(.*?)[\"|>]", Pattern.CASE_INSENSITIVE);
Matcher matcher;
while ((line = reader.readLine()) != null) {
matcher = linkPattern.matcher(line);
while (matcher.find()) {
String link = matcher.group(1).trim();
System.out.println(link);
}
}
reader.close();
} catch (Exception e) {
e.printStackTrace();
}
}
}
```
希望这些信息能够帮助你。
阅读全文