帮我写一段爬虫代码,jsoup实现也可以
时间: 2024-10-11 07:06:30 浏览: 23
java写爬虫代码
5星 · 资源好评率100%
当然可以,这里是一个简单的使用Jsoup库在Java中编写的基本HTML页面爬虫示例。假设我们想要抓取一个网页上所有链接(<a>标签),请注意,这只是一个基础示例,并非所有网站都允许抓取,实际操作时需遵守robots.txt规则以及网站的使用协议:
```java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class SimpleWebScraper {
public static void main(String[] args) throws Exception {
// 网页URL
String url = "https://example.com";
try (Document doc = Jsoup.connect(url).get()) {
// 解析网页
Elements links = doc.select("a[href]"); // 选择所有的<a>标签并提取href属性
for (Element link : links) {
System.out.println("Link: " + link.attr("abs:href")); // 输出绝对链接
}
}
}
}
```
这个代码会连接到指定的URL,然后解析HTML文档,找到所有的`<a>`标签,并打印出它们的绝对链接。记得在实际使用前检查网络请求是否允许爬取,并处理可能出现的异常。
阅读全文