WebMagic框架怎么爬取数据
时间: 2023-09-15 12:24:36 浏览: 92
WebMagic框架是一个Java语言编写的开源网络爬虫框架,可以用来爬取各种网站上的数据。下面是使用WebMagic框架爬取数据的基本步骤:
1. 定义一个Java类,实现PageProcessor接口,用于解析网页内容,提取需要的数据。
2. 在PageProcessor中定义需要爬取的URL地址,并设置爬取的规则。
3. 创建一个Spider对象,设置起始URL和PageProcessor对象。
4. 启动Spider对象,开始爬取数据。
5. 在PageProcessor中定义处理数据的方法,将提取到的数据保存到文件或数据库中。
以下是一个使用WebMagic框架爬取数据的示例代码:
```
public class MyPageProcessor implements PageProcessor {
private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);
@Override
public void process(Page page) {
List<String> titles = page.getHtml().xpath("//div[@class='title']/a/text()").all();
List<String> contents = page.getHtml().xpath("//div[@class='content']/text()").all();
for (int i = 0; i < titles.size(); i++) {
System.out.println(titles.get(i) + ": " + contents.get(i));
}
}
@Override
public Site getSite() {
return site;
}
public static void main(String[] args) {
Spider.create(new MyPageProcessor())
.addUrl("http://www.example.com")
.thread(5)
.run();
}
}
```
这个例子中,我们定义了一个PageProcessor对象,在process方法中使用XPath表达式提取了网页中的标题和内容,并打印出来。然后我们创建了一个Spider对象,设置了起始URL和线程数,并启动了Spider对象,开始爬取数据。
阅读全文