def start_requests(self): clazz = ["java"] for item in clazz: for i in range(1, 11): # 给i赋值1到10页 url = self.start_urls[0] % (item, i) yield Request(url=url, dont_filter=True)什么意思
时间: 2024-02-15 12:27:13 浏览: 117
这段代码是一个 Scrapy 的 Spider 类中的 start_requests() 方法,它用于生成爬虫开始爬取的请求。其中,clazz 是一个包含要爬取的类别的列表。对于每个类别,通过循环构造了 1 到 10 页的 URL 地址,并通过 Scrapy 中的 Request 对象生成请求。最终通过 yield 关键字返回所有的请求。这里的 dont_filter 参数为 True 表示不进行 URL 去重。
阅读全文