scrapyd --help 讲解
时间: 2023-09-19 12:09:20 浏览: 209
scrapyd 是一个 Python 爬虫框架,可以用于开发和部署爬虫。它的命令行工具提供了许多有用的选项和功能。
下面是 `scrapyd --help` 的讲解:
```
Usage: scrapyd [options] <command> [args]
Options:
-h, --help show this help message and exit
-v, --version show program's version number and exit
--project-dir=DIR project directory (default: .)
--config=FILE path to configuration file
--logfile=FILE path to log file
--pidfile=FILE path to pid file
--set=NAME=VALUE set/override setting (may be repeated)
--python=PYTHON path to Python executable to use
--eggs-dir=DIR eggs directory (default: eggs)
--logs-dir=DIR logs directory (default: logs)
--jobs-to-keep=N number of jobs to keep (default: 5)
--max_proc=N max processes to use (default: 0, meaning no limit)
--daemonize daemonize process
--bind-address=ADDRESS
bind to the given IP address (default: 127.0.0.1)
--http-port=PORT http port to listen on (default: 6800)
--application=MODULE application object to use (default: scrapy.app.application.Application)
--pidfile-overrides allow PID file to be overridden if already exists
--disable-service-autoreload
disable service autoreload when debugging
--pdb enable pdb on connection failure
--unbuffered-stdout use unbuffered stdout (same as python -u)
Commands:
daemon start the daemon process
deploy deploy project to Scrapyd server
schedule schedule a spider to run
listprojects
list all projects
listversions
list all versions of a project
listspiders list all spiders in a project
cancel cancel a spider
addversion add a version to a project
egg create an egg distribution of a project
server run Scrapy server
bench check bench setup
quickstart generate new project
```
其中,常用的命令有:
- `daemon`:启动 scrapyd 守护进程;
- `deploy`:将爬虫项目部署到 scrapyd 服务器;
- `schedule`:启动一个爬虫任务;
- `listprojects`:列出所有的爬虫项目;
- `listspiders`:列出指定爬虫项目中的所有爬虫;
- `cancel`:取消正在运行的爬虫任务;
- `addversion`:为指定爬虫项目添加一个新版本;
- `egg`:生成一个爬虫项目的 egg 文件;
- `server`:启动 Scrapy 服务器;
- `bench`:检查 Scrapy 的性能和配置;
- `quickstart`:快速创建一个新的爬虫项目。
除此之外,还有一些常用的选项和设置,比如:
- `--project-dir`:指定爬虫项目的根目录;
- `--config`:指定配置文件的路径;
- `--logfile`:指定日志文件的路径;
- `--pidfile`:指定 PID 文件的路径;
- `--set`:设置或覆盖指定的配置项;
- `--python`:指定要使用的 Python 解释器;
- `--max_proc`:指定同时可以运行的最大进程数;
- `--bind-address`:指定要绑定的 IP 地址;
- `--http-port`:指定 HTTP 监听端口;
- `--pdb`:在连接失败时启用 pdb 调试模式。
阅读全文