Crawlab 0.5.0网络爬虫快速入门与部署教程

需积分: 0 100 浏览量更新于2024-07-01 1 收藏 9.77MB PDF 举报

Crawlab v0.5.0 是一款强大的网络爬虫工具，专为开发者设计，提供了便捷的爬虫管理和部署功能。该教程旨在帮助用户深入了解如何使用Crawlab，无论是初次接触还是经验丰富的开发者，都能从中找到所需的内容。对于熟悉Docker和Docker-Compose的开发者，可以直接跳过前两节关于容器管理和部署的介绍，因为这些内容适合已经有一定技术背景的读者。教程内容包括： 1. **安装与部署**：分为两种方式，一是通过Docker部署，适用于想要利用容器化技术快速启动Crawlab的用户；二是针对更复杂的环境，介绍了Kubernetes部署，适合大型分布式系统需求。此外，还有开发模式和多节点部署选项，满足不同规模的应用场景。 2. **配置**：Crawlab提供了丰富的配置选项，包括爬虫配置，如创建和自定义爬虫，以及可配置的Scrapy爬虫支持，满足不同复杂度的抓取任务。长任务爬虫的设计允许处理耗时的操作，而结果去重功能则确保数据的准确性。 3. **任务管理**：Crawlab支持任务的运行、日志查看、结果下载以及定时任务，方便用户自动化执行爬虫作业。此外，还提供了Webhook功能，便于与其他系统集成，如邮件通知、钉钉机器人或企业微信机器人，实现工作流自动化。 4. **节点管理**：Crawlab的节点管理功能允许用户查看节点列表，安装和管理依赖，查看拓扑图，并进行节点操作如添加、修改和监控。这对于分布式部署非常重要。 5. **数据源支持**：Crawlab兼容多种数据库，如MongoDB、MySQL、Postgres等，以及消息队列如Kafka和全文搜索服务如ElasticSearch，这体现了其全面的数据处理能力。 6. **API和权限管理**：Crawlab提供API Token，用于安全地访问和控制API资源。同时，它具有完善的权限管理系统，确保数据的安全性。 7. **原理与架构**：教程深入讲解了Crawlab的整体架构，包括节点之间的通信、监控机制以及爬虫部署和任务执行过程中的RPC（远程过程调用）技术。 8. **社区与贡献**：文档强调了知识分享的重要性，鼓励用户参与社区Q&A，贡献自己的经验和发现的问题，共同推动Crawlab的持续改进。通过本教程，用户不仅能够掌握Crawlab的基本使用方法，还能理解其背后的系统设计和工作原理，从而更好地进行网络爬虫项目的管理和优化。

请查看这篇文章来查看Docker的常用命令。

https://blog.csdn.net/u013378306/article/details/86668313

为了方便起见，我们用 docker-compose 的方式来部署。 docker-compose 是一个集群管理方式，可以利用名

为 docker-compose.yml 的 yaml 文件来定义需要启动的容器，可以是单个，也可以（通常）是多个的。

安装 docker-compose 其实比较简单，在安装了 pip 的情况下（Python3），执行以下命令。

1. pipinstalldocker-compose

安装好 docker-compose 后，请运行 docker-composeps 来测试是否安装正常。正常的应该是显示如下内容。

1. NameCommandStatePorts

2. ------------------------------

3. --------------------------------

这是没有Docker容器在运行的情况，也就是空列表。如果有容器在运行，可以看到其对应的信息。

Crawlab的 docker-compose.yml 定义如下。

1. version:'3.3'

2. services:

3. master:

4. image:tikazyq/crawlab:latest

5. container_name:master

6. environment:

7.

#CRAWLAB_API_ADDRESS:"https://<your_api_ip>:<your_api_port>"#backendAPIaddress后端API地址.适用于

https或者源码部署

8. CRAWLAB_SERVER_MASTER:"Y"#whethertobemasternode是否为主节点，主节点为Y，工作节点为N

9. CRAWLAB_MONGO_HOST:"mongo"#MongoDBhostaddressMongoDB的地址，在dockercompose网络中，直接引用服务名称

10. #CRAWLAB_MONGO_PORT:"27017"#MongoDBportMongoDB的端口

11. #CRAWLAB_MONGO_DB:"crawlab_test"#MongoDBdatabaseMongoDB的数据库

12. #CRAWLAB_MONGO_USERNAME:"username"#MongoDBusernameMongoDB的用户名

13. #CRAWLAB_MONGO_PASSWORD:"password"#MongoDBpasswordMongoDB的密码

14. #CRAWLAB_MONGO_AUTHSOURCE:"admin"#MongoDBauthsourceMongoDB的验证源

15. CRAWLAB_REDIS_ADDRESS:"redis"#RedishostaddressRedis的地址，在dockercompose网络中，直接引用服务名称

16. #CRAWLAB_REDIS_PORT:"6379"#RedisportRedis的端口

17. #CRAWLAB_REDIS_DATABASE:"1"#RedisdatabaseRedis的数据库

18. #CRAWLAB_REDIS_PASSWORD:"password"#RedispasswordRedis的密码

19. #CRAWLAB_LOG_LEVEL:"info"#loglevel日志级别.默认为info

20.

#CRAWLAB_LOG_ISDELETEPERIODICALLY:"N"#whethertoperiodicallydeletelogfiles是否周期性删除日志文件.

默认不删除

21. #CRAWLAB_LOG_DELETEFREQUENCY:"@hourly"#frequencyofdeletinglogfiles删除日志文件的频率.默认为每小时

1.3Docker常用命令

2.安装Docker-Compose

3.安装并启动Crawlab

Docker

-16-本文档使用书栈网·BookStack.CN构建

22.

#CRAWLAB_SERVER_REGISTER_TYPE:"mac"#noderegistertype节点注册方式.默认为mac地址，也可设置为ip（防止

mac地址冲突）

23.

#CRAWLAB_SERVER_REGISTER_IP:"127.0.0.1"#noderegisterip节点注册IP.节点唯一识别号，只有当

CRAWLAB_SERVER_REGISTER_TYPE为"ip"时才生效

24. #CRAWLAB_TASK_WORKERS:8#numberoftaskexecutors任务执行器个数（并行执行任务数）

25. #CRAWLAB_RPC_WORKERS:16#numberofRPCworkersRPC工作协程个数

26. #CRAWLAB_SERVER_LANG_NODE:"Y"#whethertopre-installNode.js预安装Node.js语言环境

27. #CRAWLAB_SERVER_LANG_JAVA:"Y"#whethertopre-installJava预安装Java语言环境

28. #CRAWLAB_SETTING_ALLOWREGISTER:"N"#whethertoallowuserregistration是否允许用户注册

29. #CRAWLAB_SETTING_ENABLETUTORIAL:"N"#whethertoenabletutorial是否启用教程

30. #CRAWLAB_NOTIFICATION_MAIL_SERVER:smtp.exmaple.com#STMPserveraddressSTMP服务器地址

31. #CRAWLAB_NOTIFICATION_MAIL_PORT:465#STMPserverportSTMP服务器端口

32. #CRAWLAB_NOTIFICATION_MAIL_SENDEREMAIL:admin@exmaple.com#senderemail发送者邮箱

33. #CRAWLAB_NOTIFICATION_MAIL_SENDERIDENTITY:admin@exmaple.com#senderID发送者ID

34. #CRAWLAB_NOTIFICATION_MAIL_SMTP_USER:username#SMTPusernameSMTP用户名

35. #CRAWLAB_NOTIFICATION_MAIL_SMTP_PASSWORD:password#SMTPpasswordSMTP密码

36. ports:

37. -"8080:8080"#frontendportmapping前端端口映射

38. depends_on:

39. -mongo

40. -redis

41. #volumes:

42. #-"/var/crawlab/log:/var/logs/crawlab"#logpersistent日志持久化

43. worker:

44. image:tikazyq/crawlab:latest

45. container_name:worker

46. environment:

47. CRAWLAB_SERVER_MASTER:"N"

48. CRAWLAB_MONGO_HOST:"mongo"

49. CRAWLAB_REDIS_ADDRESS:"redis"

50. depends_on:

51. -mongo

52. -redis

53. #environment:

54. #MONGO_INITDB_ROOT_USERNAME:username

55. #MONGO_INITDB_ROOT_PASSWORD:password

56. #volumes:

57. #-"/var/crawlab/log:/var/logs/crawlab"#logpersistent日志持久化

58. mongo:

59. image:mongo:latest

60. restart:always

61. #volumes:

62. #-"/opt/crawlab/mongo/data/db:/data/db"#makedatapersistent持久化

63. #ports:

64. #-"27017:27017"#exposeporttohostmachine暴露接口到宿主机

65. redis:

66. image:redis:latest

67. restart:always

68. #command:redis-server--requirepass"password"#setredispassword设置Redis密码

69. #volumes:

70. #-"/opt/crawlab/redis/data:/data"#makedatapersistent持久化

71. #ports:

72. #-"6379:6379"#exposeporttohostmachine暴露接口到宿主机

73. #splash:#useSplashtorunspidersondynamicpages

Docker

-17-本文档使用书栈网·BookStack.CN构建

74. #image:scrapinghub/splash

75. #container_name:splash

76. #ports:

77. #-"8050:8050"

这里先定义了 master 节点和 worker 节点，也就是Crawlab的主节点和工作节点。 master 和 worker

依赖于 mongo 和 redis 容器，因此在启动之前会同时启动 mongo 和 redis 容器。这样就不需要单独

配置 mongo 和 redis 服务了，大大节省了环境配置的时间。

其中，我们设置了Redis和MongoDB的地址，分别通过 CRAWLAB_REDIS_ADDRESS 和 CRAWLAB_MONGO_HOST 参

数。 CRAWLAB_SERVER_MASTER 设置为 Y 表示启动的是主节点（该参数默认是为 N ，表示为工作节

点）。 CRAWLAB_API_ADDRESS 是前端的API地址，请将这个设置为公网能访问到主节点的地址， 8000 是API端口。

环境变量配置详情请见配置章节，您可以根据自己的要求来进行配置。

⚠注意:在生产环境中，强烈建议您将数据库持久化，因为否则的话，一旦您的Docker容器发生意外导致关闭重

启，您的数据将丢失。持久化的方法就是将上述 docker-compose.yml 模版中的关于持久化的代码取消注释就可以

了。持久化的数据包括：MongoDB数据库、Redis数据库、日志。

安装完 docker-compose 和定义好 docker-compose.yml 后，只需要运行以下命令就可以启动Crawlab。

1. docker-composeup-d

同样，在浏览器中输入 http://localhost:8080 就可以看到界面。

当Crawlab有更新时，我们会将新的变更构建更新到新的镜像中。最新的镜像名称都是

tikazyq/crawlab:latest 。而一个指定版本号的镜像名称为 tikazyq/crawlab:<version> ，例如

tikazyq/crawlab:0.4.7 为v0.4.7版本对应的镜像。

如果您需要更新最新的版本的镜像，只需要执行以下代码。

1. #关闭并删除Docker容器

2. docker-composedown

3.

4. #拉取最新镜像

5. dockerpulltikazyq/crawlab:latest

6.

7. #启动Docker容器

8. docker-composeup-d

请参考爬虫章节来详细了解如何使用Crawlab。

4.更新/重启Crawlab

5.下一步

Docker

-18-本文档使用书栈网·BookStack.CN构建

Kubernetes（K8S）是非常强大的容器编排工具，可以管理大型集群、微服务、分布式应用等等，是生产环境多节

点部署中非常合适的选择。

而Crawlab作为分布式爬虫管理平台，同样也支持Kubernetes部署。Kubernetes部署适合比较大型的分布

式应用，但如果您有几台机器，也是可以实践的，Kubernetes将降低您管理分布式应用的成本。

如果对Kubernetes还不了解，可以在Kubernetes中文社区入门课程中学习相关知识；如果您已经了解

Docker，可以参考另外一个比较不错的免费资源，《从Docker到Kubernetes进阶》；同时也推荐掘金的

《Kubernetes从上手到实践》掘金小册（付费）学习快速入门K8S集群的知识；如果想深入了解K8S的原

理，建议学习极客时间上张磊的《深入剖析Kubernetes》。注意，由于Kubernetes发展很快，可能很多教程的

K8S版本已经有些老了，有些命令在新版本不生效，因此为了保证您使用的命令和配置是最新的版本，请开发者参考

Kubernetes官方文档。

本小节将详细介绍如何在一个Kubernetes集群上搭建Crawlab多节点应用。首先我们假设您有多台服务器，操

作系统均为Ubuntu16.04。

推荐人群:

需要在生产环境中实践多节点部署Crawlab的开发者

需要部署大规模爬虫应用（例如分布式爬虫）的开发者

了解Docker、Kubernetes或希望学习相关知识的开发者

推荐配置:

Docker:18.03+

Kubernetes:1.17.3+

如果您已经有一个工作的K8S集群，您可以略过本节，直接跳到2.配置Crawlab。

我们在Docker安装部署中已经详细讲述了如何安装Docker，请参考该小节的安装教程在每一台机器上安装

Docker。

⚠注意：您需要在每一台机器上安装Docker。

安装Kubernetes的过程比较繁琐，建议您耐心操作。我们首先将在主节点上安装和配置Kubernetes，主节点名

称叫master。

如果您有比较好的网络环境（例如在国外），可以考虑忽略这一步。

Kubernetes部署

1.节点安装配置

1.1安装Docker

1.2安装Kubernetes

1.2.1拉取Kubernetes基础镜像

Kubernetes

-19-本文档使用书栈网·BookStack.CN构建

剩余140页未读，继续阅读

CyberNinja

粉丝: 29
资源: 297

Crawlab 0.5.0网络爬虫快速入门与部署教程

Python-Crawlab基于Celery的爬虫分布式爬虫管理平台支持多种编程语言以及多种爬虫框架

Crawlab分布式爬虫管理平台-其他

spiderflow爬虫平台 v0.5.0.zip

ai_edu-v0.5.0.apk.1

trt_pose目前的最新版本v0.5.0，比以往版本有什么改进

trt_pose目前的最新版本v0.5.0，在Jetson Xavier NX速度那样

skywalking的 php agent 0.5.0版本详细使用方法

maixpy_v0.5.0_0_g1f5d688_minimum_with_ide_support

GPflow==0.5.0 版本怎么安装

安装 torch==1.4.0 torchvision==0.5.0

最新资源