webmagic面试题
时间: 2023-11-08 14:04:58 浏览: 115
web面试题分享
WebMagic是一个Java开源的网络爬虫框架,主要用于抓取互联网上的数据。它使用了webmagic库进行前程无忧职位的爬取,项目搭建使用了springboot、springdatajpa和mybatis。Selectable是WebMagic的一个核心功能,它是一个链式API,用于抽取页面元素。Selectable接口包含了抽取和获取结果两类方法,其中使用xpath作为抽取技术,可以从页面中获取指定内容。
在WebMagic中,实现一个基本的爬虫只需要编写一个类去实现PageProcessor接口。这个类包含了爬虫的配置、页面元素的抽取和URL的获取、跳转。配置部分主要在Site中进行,包括抓取网站的相关配置,如编码、抓取间隔、重试次数等。页面元素的抽取使用xpath技术,可以根据指定的规则抽取出需要的元素。URL的获取和跳转通过编写逻辑实现。
阅读全文