Java Jsoup实现网络资源一键下载

需积分: 9 4 浏览量更新于2024-09-01 收藏 1KB TXT 举报

Jsoup是一款强大的Java库，专用于从HTML网页中进行数据抓取和解析。它提供了一种便捷的方式来下载网络资源到本地，即使在处理存在中文字符的URL时也能有效地工作。在本代码示例中，主要展示了如何使用Jsoup连接到指定的目标地址，处理可能的编码问题，设置请求头以模拟用户操作，并携带Cookie，同时管理连接超时和文件下载的过程。首先，`Jsoup.connect()` 方法用于建立与目标地址的连接，`ignoreContentType(true)` 参数可以忽略内容类型检查，加快解析速度。连接成功后，会返回一个 `Response` 对象，通过 `execute()` 方法执行HTTP请求。针对中文URL的情况，创建一个新的 `URL` 对象并设置连接超时时间（这里是3秒），防止长时间等待。为了模拟浏览器行为，设置了请求头 "User-Agent"，这是一个常见的标识，告诉服务器你正在使用的浏览器版本。如果需要携带Cookie，可以在连接建立时将其添加到请求中，这里没有直接给出Cookie，但可以按照 `http.setRequestProperty()` 的方式添加。接下来，获取响应的文件大小，通过 `getContentLengthLong()` 方法获取总字节数，并转换为KB单位，方便显示。获取到输入流后，使用循环读取数据块并写入到本地文件中，`FileOutputStream` 负责将数据保存到指定路径，如 "D:/zi.zip"。`out.flush()` 和 `++count` 用于记录已写入的字节数。最后，确保所有资源被正确关闭，包括输入流、输出流以及连接，通过 `close()` 方法释放系统资源，并调用 `http.disconnect()` 结束连接。整个过程体现了 Jsoup在简化网络资源下载操作中的实用性和灵活性，特别是在处理复杂网页结构和跨语言环境下的应用。

public static void main(String[] args) throws IOException {

//Open a URL Stream
Connection.Response resultImageResponse = Jsoup.connect("目标地址").ignoreContentType(true).execute();
// 解决url中可能有中文情况
URL url = new URL("目标地址");
HttpURLConnection http = (HttpURLConnection)url.openConnection();
http.setConnectTimeout(3000);
// 设置 User-Agent 避免被拦截
http.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)");
如有Cookie在此处添加
String contentType = http.getContentType();
System.out.println("contentType: "+ contentType);
// 获取文件大小
long length = http.getContentLengthLong();
System.out.println("文件大小："+(length / 1024)+"KB");
// 获取文件名
InputStream inputStream = http.getInputStream();
byte[] buff = new byte[1024*10];
File file=new File("D:/","zi.zip");
OutputStream out = new FileOutputStream(file);
int len ;
int count = 0; // 计数
while((len = inputStream.read(buff)) != -1) {
out.write(buff, 0, len);
out.flush();
++count ;
}
System.out.println("count:"+ count);
// 关闭资源

下载后可阅读完整内容，剩余1页未读，立即下载

张小岛

粉丝: 0
资源: 2

Java Jsoup实现网络资源一键下载

jsoup文件包

jsoup实现爬取一个完整的网站，并保存到本地

jsoup.zip包括文档和jar包

使用Java爬虫Jsoup写的爬取各大小说网站内容。支持多网站小说来源，程序猿划水利器。.zip

自己动手写网络爬虫PDF+源码.zip

将网页指定区域的html下载，同时将js,css也下载。并将页面的路径改为下载后的路径

Java写的爬虫

java写的网络电影种子爬虫

用Java写的海贼王漫画爬虫

下载网页图片源码

最新资源