jsoup怎么爬取小红书页面图片
时间: 2024-06-08 07:08:47 浏览: 11
使用 Jsoup 爬取小红书页面图片,可以按照以下步骤进行操作:
1. 使用 Jsoup 获取小红书页面的 HTML 代码。
```java
Document doc = Jsoup.connect("https://www.xiaohongshu.com/discovery/item/5fce9d7c000000000101fbfa").get();
```
2. 在 HTML 代码中找到包含图片的元素,例如 `<img>` 标签。
```java
Elements imgs = doc.select("img");
```
3. 遍历图片元素,获取图片的 URL。
```java
for (Element img : imgs) {
String imgUrl = img.attr("src");
// 处理图片 URL,例如下载图片到本地
}
```
完整代码示例:
```java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.net.URL;
import java.net.URLConnection;
public class XiaohongshuImageCrawler {
public static void main(String[] args) throws Exception {
// 小红书页面 URL
String url = "https://www.xiaohongshu.com/discovery/item/5fce9d7c000000000101fbfa";
// 获取 HTML 代码
Document doc = Jsoup.connect(url).get();
// 获取所有图片元素
Elements imgs = doc.select("img");
// 遍历图片元素,下载图片到本地
for (Element img : imgs) {
String imgUrl = img.attr("src");
if (imgUrl.startsWith("//")) {
imgUrl = "https:" + imgUrl;
}
if (imgUrl.startsWith("https://")) {
downloadImage(imgUrl);
}
}
}
private static void downloadImage(String imgUrl) throws Exception {
URL url = new URL(imgUrl);
URLConnection conn = url.openConnection();
InputStream in = conn.getInputStream();
FileOutputStream out = new FileOutputStream("image.jpg");
byte[] buffer = new byte[1024];
int len;
while ((len = in.read(buffer)) != -1) {
out.write(buffer, 0, len);
}
out.close();
in.close();
}
}
```
注意:上述代码只是简单地将图片下载到本地,具体的图片处理方式需要根据实际需求进行修改。另外,小红书的页面结构可能会发生变化,代码中的选择器也需要根据页面结构进行调整。
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)