没有合适的资源?快使用搜索试试~ 我知道了~
首页提高scrapy的爬取速度
资源详情
资源评论
资源推荐

可通过配置并发连接选项对 spider 速度进行优化
settings.py
选项 说明
CONCURRENT_REQUESTS
Downloader 最大并发请求下载数量,默认
32
CONCURRENT_ITEMS
Item Pipeline 最大并发 ITEM 处理数量,
默认 100
CONCURRENT_REQUESTS_PER_DOM
AIN
每个目标域名最大的并发请求数量,默认 8
CONCURRENT_REQUESTS_PER_IP
每个目标 IP 最大的并发请求数量,默认 0,
非 0 有效
提高 scrapy 的爬取速度
爬取大量数据的时候,爬取速度显著影响着爬取用时,总结一下我在使用 scrapy 的时
候用来提升爬取速度的方法。
在 settings.py 中设置如下参数:
DOWNLOAD_DELAY = 0
CONCURRENT_REQUESTS = 100
CONCURRENT_REQUESTS_PER_DOMAIN = 100
CONCURRENT_REQUESTS_PER_IP = 100
COOKIES_ENABLED = False
一、降低下载延迟
DOWNLOAD_DELAY = 0
将下载延迟设为 0,这时需要相应的防 ban 措施,一般使用 user agent 轮转,构建
user agent 池,轮流选择其中之一来作为 user agent。
user agent 轮转可参考博
客 http://blog.csdn.net/u012150179/article/details/35774323#



















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0