java爬虫爬取网页数据
时间: 2023-12-22 11:26:34 浏览: 95
java实现爬虫爬网站图片的实例代码
以下是使用Java进行网页爬虫的基本步骤:
1. 导入所需的包和类,例如Jsoup类用于解析HTML文档。
2. 使用Jsoup.connect()方法连接到目标网站,并使用get()方法获取HTML文档。
3. 使用Jsoup.parse()方法解析HTML文档,并使用select()方法选择需要的元素。
4. 使用循环遍历所选元素,并使用text()方法获取元素的文本内容。
5. 将获取到的数据存储到本地文件或数据库中。
以下是一个简单的Java爬虫示例,用于从指定网站上获取新闻标题和链接:
```java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class NewsCrawler {
public static void main(String[] args) throws IOException {
String url = "https://news.baidu.com/";
Document doc = Jsoup.connect(url).get();
Elements newsList = doc.select(".ulist.focuslistnews.topli");
for (Element news : newsList) {
Element title = news.select("a").first();
System.out.println("标题:" + title.text());
System.out.println("链接:" + title.attr("href"));
}
}
}
```
阅读全文