scrapy 设置隧道代理
时间: 2023-10-25 16:09:35 浏览: 43
在 Scrapy 中设置代理需要通过 middleware 来实现。以下是一个简单的隧道代理设置示例:
1. 创建一个自定义的 middleware,命名为 `RandomProxyMiddleware`,并将其添加到 Scrapy 的 settings.py 中:
```python
from scrapy import signals
import random
class RandomProxyMiddleware(object):
def __init__(self, settings):
self.proxies = settings.getlist('PROXIES')
@classmethod
def from_crawler(cls, crawler):
return cls(crawler.settings)
def process_request(self, request, spider):
request.meta['proxy'] = random.choice(self.proxies)
```
2. 在 settings.py 中添加以下配置:
```python
PROXIES = [
'http://user:password@proxy1.example.com:8080',
'http://user:password@proxy2.example.com:8080',
# ...
]
DOWNLOADER_MIDDLEWARES = {
'myproject.middlewares.RandomProxyMiddleware': 543,
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 544,
}
```
在这个示例中,我们创建了一个自定义的 middleware `RandomProxyMiddleware`,它会从 `PROXIES` 列表中随机选择一个代理,并将其设置为 request 的 meta 属性中的 `proxy` 字段。同时,我们还将 Scrapy 自带的 `HttpProxyMiddleware` 添加到了 middleware 列表中,以便 Scrapy 使用我们设置的代理。最后,我们将这两个 middleware 的优先级分别设置为 543 和 544,以确保 `RandomProxyMiddleware` 先于 `HttpProxyMiddleware` 执行。
3. 运行 Scrapy 爬虫时,所有的请求都会通过 `RandomProxyMiddleware` 中设置的代理进行发送。