java爬取http://www.cdt-kxjs.com/scientific/research/14972.html
时间: 2023-06-23 15:04:51 浏览: 163
JAVA写的网页爬取代码
Java 爬取网页可以使用 Jsoup 库,它可以让我们方便地使用 CSS 选择器来解析 HTML 页面。
首先,我们需要添加 Jsoup 的依赖:
```xml
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.2</version>
</dependency>
```
然后,我们可以编写 Java 代码来实现页面爬取和解析:
```java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
public class SpiderExample {
public static void main(String[] args) throws Exception {
// 发送 GET 请求,获取页面内容
String url = "http://www.cdt-kxjs.com/scientific/research/14972.html";
Document doc = Jsoup.connect(url).get();
// 获取项目名称
Element titleEl = doc.selectFirst("div.title > h2");
String title = titleEl.text().trim();
System.out.println(title);
// 获取项目负责人
Element leaderEl = doc.selectFirst("div.author > span:nth-child(2)");
String leader = leaderEl.text().trim();
System.out.println(leader);
// 获取项目来源和时间
Element sourceTimeEl = doc.selectFirst("div.author > span:nth-child(4)");
String sourceTime = sourceTimeEl.text().trim();
System.out.println(sourceTime);
// 获取项目简介
Element summaryEl = doc.selectFirst("div.introduction > p");
String summary = summaryEl.text().trim();
System.out.println(summary);
}
}
```
代码中,我们首先发送 GET 请求,获取页面内容。然后,我们使用 Jsoup 库解析页面内容,使用 CSS 选择器来获取页面中的项目名称、项目负责人、项目来源和时间以及项目简介,并输出结果。
需要注意的是,在实际爬取中,我们需要对页面中的数据进行一些清洗和处理,确保数据的准确性和完整性。此外,我们也需要遵守网站的爬取规则,确保不会对网站造成不必要的影响。
阅读全文