java爬虫爬取网页文字
时间: 2024-09-09 11:09:43 浏览: 48
在Java中爬取网页文字通常会利用网络请求库(如Jsoup、HttpClient或者Apache HttpClient)来发送HTTP GET请求获取网页内容,然后解析HTML文档提取所需的文字信息。以下是一个简单的步骤概述:
1. **导入依赖**:如果你使用的是Jsoup,需要添加jsoup的依赖到项目中。
```xml
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>最新版本号</version>
</dependency>
```
2. **发起请求**:通过`Document`类加载网页源码。
```java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
String url = "http://example.com";
Document doc = Jsoup.connect(url).get();
```
3. **解析HTML**:使用`select()`或`getElementById()`等方法选取特定标签内的文本。
```java
Elements textNodes = doc.select("p"); // 获取所有段落元素
for (Element element : textNodes) {
String text = element.text(); // 提取节点内的文本
System.out.println(text);
}
```
4. **处理异常**:网络请求可能会出错,记得捕获并处理异常。
```java
try {
Document doc = Jsoup.connect(url).timeout(5000).execute();
} catch (IOException e) {
e.printStackTrace();
}
```
阅读全文