jsoup爬虫爬取文件
时间: 2023-12-17 22:59:39 浏览: 116
基于Jsoup爬虫抓取图吧网地名
你可以使用 Jsoup 来进行爬虫并爬取文件。以下是一个示例代码,展示了如何使用 Jsoup 进行文件的爬取:
```java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.BufferedInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
public class FileSpider {
public static void main(String[] args) throws IOException {
String fileUrl = "https://example.com/example.pdf"; // 文件的URL地址
String savePath = "path/to/save/file.pdf"; // 文件保存的路径
// 使用 Jsoup 发起 HTTP 请求并获取文件的输入流
Document doc = Jsoup.connect(fileUrl).ignoreContentType(true).get();
InputStream inputStream = new URL(fileUrl).openStream();
BufferedInputStream bufferedInputStream = new BufferedInputStream(inputStream);
// 创建文件输出流,并将输入流的内容保存到文件
FileOutputStream fileOutputStream = new FileOutputStream(savePath);
byte[] buffer = new byte[1024];
int bytesRead;
while ((bytesRead = bufferedInputStream.read(buffer, 0, 1024)) != -1) {
fileOutputStream.write(buffer, 0, bytesRead);
}
// 关闭流
fileOutputStream.close();
bufferedInputStream.close();
inputStream.close();
System.out.println("文件下载完成!");
}
}
```
请注意替换代码中的 `fileUrl` 和 `savePath` 为你要爬取文件的URL地址和要保存的文件路径。这个示例适用于下载 PDF 文件,你也可以根据需要修改代码来下载其他类型的文件。
阅读全文