如何用java爬取百度百科网页信息并保存到本地
时间: 2024-04-07 08:32:36 浏览: 140
你可以使用Java中的Jsoup库来实现爬取百度百科网页信息并保存到本地。下面是一个简单的示例代码,可以帮助你快速入门:
```
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Main {
public static void main(String[] args) {
String url = "https://baike.baidu.com/item/Java/85979";
try {
// 使用Jsoup连接到指定的URL,并获取HTML文档
Document doc = Jsoup.connect(url).get();
// 获取百度百科页面的标题
String title = doc.title();
System.out.println("标题: " + title);
// 获取百度百科页面的所有段落信息
Elements paragraphs = doc.select(".main-content .para");
// 将所有段落信息写入文本文件
BufferedWriter writer = new BufferedWriter(new FileWriter("Java百度百科.txt"));
for (Element paragraph : paragraphs) {
writer.write(paragraph.text());
writer.newLine();
}
writer.close();
System.out.println("爬取并保存成功!");
} catch (IOException e) {
e.printStackTrace();
}
}
}
```
在这个示例中,我们首先使用Jsoup库连接到指定的URL(这里是Java百度百科页面),并获取HTML文档对象。然后,我们使用CSS选择器从文档对象中获取所有段落信息,并将这些信息写入本地文本文件中。
需要注意的是,这个示例仅供参考,实际应用中需要处理更多的异常情况和错误处理。此外,爬取网页信息需要遵守相关法律法规,不得用于非法用途。
阅读全文