使用Java写一个爬虫
时间: 2024-06-08 10:09:43 浏览: 13
好的,以下是一个简单的使用Java写的爬虫示例:
```java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class MyCrawler {
public static void main(String[] args) throws IOException {
String url = "https://www.baidu.com";
Document doc = Jsoup.connect(url).get();
Elements links = doc.select("a[href]");
for (Element link : links) {
System.out.println(link.attr("abs:href"));
}
}
}
```
这个爬虫使用Jsoup库来解析HTML页面,并选择所有的链接,然后打印出来。当然,这只是一个简单的示例,真正的爬虫需要更多的功能,比如处理页面内容、存储数据等等。
相关问题
JAVA写一个爬虫代码
好的,以下是一个简单的Java爬虫代码示例:
```java
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
public class SpiderExample {
public static void main(String[] args) {
String url = "https://www.example.com"; // 要抓取的网页地址
try {
Document document = Jsoup.connect(url).get(); // 用Jsoup连接网页并获取网页的DOM结构
Element element = document.getElementById("content"); // 获取ID为content的元素
System.out.println(element.text()); // 打印元素的文本内容
} catch (IOException e) {
e.printStackTrace();
}
}
}
```
这个爬虫代码使用了Jsoup库,通过连接网页并获取DOM结构,再根据元素ID获取相应元素的文本内容,从而实现简单的爬虫功能。当然,这只是一个简单的示例,实际爬虫还需要考虑到反爬机制、数据存储等问题。
用java写一个爬虫
好的,这是一个使用 Java 写爬虫的简单示例:
```
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class SimpleCrawler {
public static void main(String[] args) throws IOException {
// 要爬取的网站地址
String url = "http://www.example.com";
// 使用 Jsoup 库来解析网页
Document doc = Jsoup.connect(url).get();
// 获取所有的链接元素
Elements links = doc.select("a[href]");
for (Element link : links) {
// 获取链接的文本和地址
String linkText = link.text();
String linkHref = link.attr("href");
System.out.println(linkText + " -> " + linkHref);
}
}
}
```
这段代码使用 Jsoup 库解析给定的网站地址,然后获取所有的链接元素并打印出文本和地址。
注意,这只是一个简单的爬虫示例,实际的爬虫程序可能会更加复杂。例如,你可能需要考虑网站的反爬虫措施、爬取多个页面、保存爬取的数据等。