用idea从指定URL解析网页内容(代码及运行结果复制到下方空白)URL:(http://www.datawh.cn/zhanlang2.html),从指定URL下载网页内容(代码及运行结果复制到下方空白)
时间: 2024-10-21 09:11:40 浏览: 44
在 IntelliJ IDEA 中,我们可以使用 Jsoup 库来解析网页内容并下载。首先,需要添加 Jsoup 的依赖到你的项目中。如果你的项目是 Maven 或 Gradle 管理的,可以这样做:
**Maven**:
```xml
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.3</version>
</dependency>
```
**Gradle**:
```groovy
implementation 'org.jsoup:jsoup:1.14.3'
```
接下来,你可以创建一个 Java 类,使用以下代码来解析和下载指定 URL 的内容:
```java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
import java.nio.charset.StandardCharsets;
public class WebContentParser {
public static void main(String[] args) {
String url = "http://www.datawh.cn/zhanlang2.html";
try {
// 连接到网页
Document doc = Jsoup.connect(url).get();
// 解析网页标题
String title = doc.title();
System.out.println("网页标题: " + title);
// 提取页面的所有链接
Elements links = doc.select("a[href]");
for (Element link : links) {
System.out.println("链接: " + link.attr("href"));
}
// 将网页内容保存到文件
String content = doc.body().html();
File file = new File("content.html");
Files.write(file.toPath(), content.getBytes(StandardCharsets.UTF_8), StandardOpenOption.CREATE);
System.out.println("网页已保存到文件: " + file.getAbsolutePath());
} catch (IOException e) {
e.printStackTrace();
}
}
}
```
运行这段代码后,它会打印出网页的标题,并将整个网页内容保存到名为 `content.html` 的本地文件。
**注意**: 由于版权和隐私政策的原因,直接下载并存储完整的网页内容可能会受限。在实际应用中,通常只下载部分内容或处理响应流。
阅读全文