首页 def start_requests(self): clazz = ["java"] for item in clazz: for i in range(1, 11): # 给i赋值1到10页 url = self.start_urls[0] % (item, i) yield Request(url=url, dont_filter=True)什么意思

def start_requests(self): clazz = ["java"] for item in clazz: for i in range(1, 11): # 给i赋值1到10页 url = self.start_urls[0] % (item, i) yield Request(url=url, dont_filter=True)什么意思

时间: 2024-02-15 12:27:13 浏览: 117

这段代码是一个 Scrapy 的 Spider 类中的 start_requests() 方法，它用于生成爬虫开始爬取的请求。其中，clazz 是一个包含要爬取的类别的列表。对于每个类别，通过循环构造了 1 到 10 页的 URL 地址，并通过 Scrapy 中的 Request 对象生成请求。最终通过 yield 关键字返回所有的请求。这里的 dont_filter 参数为 True 表示不进行 URL 去重。

阅读全文