springboot爬取url不变的多页数据
时间: 2023-10-09 22:06:03 浏览: 93
springboot 集成webmagic实现网页数据爬取功能
你可以使用Java中的Jsoup库来实现爬取url不变的多页数据。以下是一个简单的示例代码:
```java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class Scraper {
public static void main(String[] args) throws IOException {
String url = "https://example.com/page=";
int pageNum = 1;
while (pageNum <= 10) { // 爬取前10页数据
String pageUrl = url + pageNum;
Document doc = Jsoup.connect(pageUrl).get();
Elements elements = doc.select("div.item"); // 使用CSS选择器获取数据
for (Element element : elements) {
// 处理爬取到的数据
String title = element.select("a.title").text();
String content = element.select("p.content").text();
System.out.println(title + ": " + content);
}
pageNum++;
}
}
}
```
在上面的示例代码中,我们使用了Jsoup库来发起HTTP请求,并使用CSS选择器获取页面中的数据。在while循环中,我们通过拼接url实现了爬取多页数据的功能。你可以根据实际情况修改代码中的url和CSS选择器来适配你需要爬取的网站。
阅读全文