webmagicx：构建可配置化网络爬虫的框架

版权申诉

34 浏览量更新于2024-09-28 收藏 140KB ZIP 举报

资源摘要信息:"webmagicx是一款基于webmagic的可配置化的爬虫框架。webmagic是一个简单而强大的爬虫框架，它实现了爬虫的主要功能，包括页面爬行、页面分析、链接过滤、页面数据库、URL队列、初始URL集合等。webmagicx在此基础上进行了扩展和优化，使得爬虫的配置更加灵活，使用更加方便。网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。通用网络爬虫，也被称为全网爬虫（Scalable Web Crawler），它的爬行对象从一些种子URL扩充到整个Web，主要为门户站点搜索引擎和大型Web服务提供商采集数据。由于商业原因，它们的技术细节很少公布出来。这类网络爬虫的爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，但需要较长时间才能刷新一次页面。虽然存在一定缺陷，但通用网络爬虫适用于为搜索引擎搜索广泛的主题，有较强的应用价值。通用网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合几个部分。页面爬行模块负责从URL队列中取出URL，然后向这些URL发送请求，获取网页内容。页面分析模块负责解析网页内容，提取出新的URL和需要存储的数据。链接过滤模块负责过滤掉一些不需要爬行的链接，例如重复的链接，或者是不符合爬行策略的链接。页面数据库用于存储爬取到的数据，URL队列用于存储待爬行的URL，初始URL集合则用于存储爬虫的种子URL。 webmagicx的出现，使得开发者可以更加方便地构建和运行网络爬虫，无需关心底层的实现细节，只需要关注于爬虫的业务逻辑即可。这对于提高开发效率，降低开发难度具有重要的意义。"

资源目录

收起资源包目录

webmagicx：构建可配置化网络爬虫的框架（137个子文件）

ConfLoader.scala 7KB

HttpUriRequestConverter.java 5KB

CssSelector.java 3KB

HashSetDuplicateRemover.java 840B

MonitorableScheduler.java 358B

build.properties 21B

SimplePageProcessor.java 1KB

ReplaceSelector.java 1KB

ResultItems.java 2KB

HttpClientDownloader.java 5KB

RedisScheduler.java 4KB

.gitignore 86B

plugins.sbt 124B

Scheduler.java 670B

package.html 58B

Spider.java 22KB

Task.java 468B

HtmlNode.java 4KB

DuplicateRemover.java 770B

AndSelector.java 2KB

Selectable.java 3KB

Selector.java 583B

LinksSelector.java 1KB

webmagicx-server.bat 515B

Downloader.java 917B

CustomRedirectStrategy.java 2KB

DownloadHandler.scala 3KB

HttpConstant.java 858B

HttpSpiderMonitor.scala 5KB

AbstractUrlCreator.scala 3KB

PlainText.java 2KB

RangeUrlCreator.scala 3KB

AbstractDownloader.java 1001B

HttpClientUtils.java 768B

SimpleProxyProvider.java 2KB

CharsetUtils.java 2KB

RegexSelector.java 3KB

SmartContentSelector.java 3KB

SpiderListener.java 289B

SimpleJdbcPipeline.scala 6KB

Experimental.java 153B

TextHandler.scala 5KB

ConsolePipeline.java 647B

RegexResult.java 565B

PriorityFileScheduler.scala 5KB

TaskMonitor.scala 5KB

Handler.java 273B

Selectors.java 1KB

GeneralProcessor.scala 7KB

NumberUtils.java 329B

FilePipeline.java 2KB

Json.java 1KB

ElementSelector.java 652B

HttpClientRequestContext.java 834B

XpathSelector.java 1KB

SpiderCell.scala 5KB

ResultItemsCollectorPipeline.java 615B

DuplicateRemovedScheduler.java 2KB

XmlProps.scala 5KB

Site.java 10KB

CountableThreadPool.java 3KB

PriorityScheduler.java 2KB

Pipeline.java 590B

HttpRequestBody.java 3KB

JsonUtil.java 244B

WMCollections.java 638B

HttpClientGenerator.java 6KB

package.html 73B

package.html 56B

package.html 104B

Test.java 1KB

Page.java 7KB

log4j.properties 853B

QueueScheduler.java 1015B

FileCacheQueueScheduler.java 6KB

CSVPipeline.scala 5KB

JsonPathSelector.java 2KB

PageProcessor.java 799B

SpiderAction.scala 4KB

package.html 106B

build.sbt 1KB

PriorityRedisScheduler.scala 4KB

CollectorPipeline.java 442B

OrSelector.java 1KB

SpiderConf.scala 5KB

package.html 149B

UrlUtils.java 4KB

package.html 90B

package.html 96B

ProxyUtils.java 986B

BaseElementSelector.java 1KB

Html.java 2KB

Request.java 6KB

FilePersistentBase.java 1KB

ProxyProvider.java 647B

AbstractSelectable.java 3KB

log4j.properties 853B

webmagicx-cli.bat 511B

Proxy.java 2KB

README.md 3KB

共 137 条

野生的狒狒

粉丝: 3398
资源: 2437

webmagicx：构建可配置化网络爬虫的框架

基于WebMagic开发的完整的分布式爬虫框架

WebmagicX：一款强大且可配置的爬虫框架

Webmagicx：无需编码的可配置XML爬虫框架

基于Scala语言的Webmagicx爬虫框架设计源码

博途1200恒压供水程序，恒压供水，一拖三，PID控制，3台循环泵，软启动工作，带超压，缺水保护，西门子1200+KTP1000触摸屏

基于PLC的立体车库，升降横移立体车库设计，立体车库仿真，三层三列立体车库，基于s7-1200的升降横移式立体停车库的设计，基于西门子博图S7-1200plc与触摸屏HMI的3x3智能立体车库仿真控制

锂电池化成机 姆龙NJ NX程序，NJ501-1400，威伦通触摸屏，搭载GX-JC60分支器进行分布式总线控制，ID262.OD2663等输入输出IO模块ADA801模拟量模块 全自动锂电池化成分容

西门子Siemens PLC程序，博途V16 V17版，配方程序，RS485通讯控制变频器启停及速度控制，昆仑通态屏与1200通讯S7~1200为cPU为1214，屏采用为mgcS，程序案例

c3560c405-universalk9-mz.150-2.SE.bin

基于感知的H.264/AVC视频编码速率控制算法

最新资源

锂电池化成机姆龙NJ NX程序，NJ501-1400，威伦通触摸屏，搭载GX-JC60分支器进行分布式总线控制，ID262.OD2663等输入输出IO模块ADA801模拟量模块全自动锂电池化成分容