IntelliJ IDEA2023 java爬虫并保存到txt_Java爬虫
时间: 2023-09-06 17:14:19 浏览: 110
java 爬虫工具,可存文本,也可存数据库
在IntelliJ IDEA中实现Java爬虫并保存到txt文件,可以按照以下步骤进行:
1. 创建Java项目,并导入相关依赖库,如Jsoup,可以在pom.xml文件中添加以下代码:
```
<dependencies>
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.3</version>
</dependency>
</dependencies>
```
2. 创建一个类作为入口,例如Crawler.java,并在该类中编写爬虫代码,如:
```
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.FileWriter;
import java.io.IOException;
public class Crawler {
public static void main(String[] args) throws IOException {
String url = "https://www.example.com";
Document doc = Jsoup.connect(url).get();
Elements links = doc.select("a[href]");
FileWriter writer = new FileWriter("output.txt");
for (Element link : links) {
writer.write(link.attr("abs:href") + "\n");
}
writer.close();
}
}
```
3. 运行程序,在项目根目录下会生成一个output.txt文件,其中包含爬取到的链接。
需要注意的是,爬取网站的过程可能涉及到反爬机制,需要根据实际情况进行相应的处理。同时,爬虫代码也需要遵守相关法律法规,不得用于非法用途。
阅读全文