IntelliJ IDEA2023 java爬虫照片并保存到文件夹_Java爬虫
时间: 2023-09-06 08:14:14 浏览: 184
在IntelliJ IDEA中实现Java爬虫照片并保存到文件夹的步骤如下:
1. 导入相关依赖包
在pom.xml文件中添加以下依赖包:
```xml
<dependencies>
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.13.1</version>
</dependency>
<dependency>
<groupId>org.apache.commons</groupId>
<artifactId>commons-io</artifactId>
<version>1.3.2</version>
</dependency>
</dependencies>
```
2. 编写Java爬虫代码
使用Jsoup库实现网页爬取,代码如下:
```java
import org.apache.commons.io.FileUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.File;
import java.io.IOException;
import java.net.URL;
public class ImageCrawler {
public static void main(String[] args) throws IOException {
String url = "http://www.example.com"; // 目标网站
String selector = "img"; // 目标元素选择器
String savePath = "D:/images/"; // 图片保存路径
Document doc = Jsoup.connect(url).get();
Elements imgs = doc.select(selector);
for (Element img : imgs) {
String imgUrl = img.absUrl("src");
if (imgUrl.startsWith("http")) {
URL imageUrl = new URL(imgUrl);
FileUtils.copyURLToFile(imageUrl, new File(savePath + imageUrl.getFile()));
}
}
}
}
```
3. 运行程序
运行程序后,程序会爬取目标网站中所有图片,并保存到指定的文件夹中。
阅读全文