java jsoup爬虫实现
时间: 2023-07-11 10:57:26 浏览: 142
Java Jsoup 是一个开源的 HTML 解析器库,可以用来实现简单的 Web 页面爬取。以下是一个简单的 Java Jsoup 爬虫实现:
1. 导入 Jsoup 库
首先需要在项目中导入 Jsoup 库,可以在 Maven 中添加以下依赖:
```
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.13.1</version>
</dependency>
```
2. 获取页面内容
通过 Jsoup 的 connect() 方法连接指定的 URL,并使用 get() 方法获取页面内容,如下所示:
```
String url = "https://www.example.com";
Document doc = Jsoup.connect(url).get();
```
3. 解析页面内容
使用 Jsoup 的 select() 方法选择页面中需要抓取的元素,并使用 text() 或者 attr() 方法获取其文本内容或属性值,如下所示:
```
Elements links = doc.select("a[href]");
for (Element link : links) {
String href = link.attr("href");
String text = link.text();
System.out.println(text + " -> " + href);
}
```
以上代码会抓取页面中所有的链接,然后输出链接的文本和地址。
4. 完整代码
```
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class MyCrawler {
public static void main(String[] args) {
String url = "https://www.example.com";
try {
Document doc = Jsoup.connect(url).get();
Elements links = doc.select("a[href]");
for (Element link : links) {
String href = link.attr("href");
String text = link.text();
System.out.println(text + " -> " + href);
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
```
以上代码可以抓取指定页面中的所有链接,并输出链接的文本和地址。
阅读全文