class QichexinxiSpider(scrapy.Spider): name = 'qichexinxiSpider' spiderUrl = 'https://www.yoojia.com/api/conditionsearch?token=1_526c1239fc0b0512a2bd13ac6b962f5f&sort=4&pn={}&rn=25&monitor=CAR_DATABASE_pc&city=%E5%8C%97%E4%BA%AC' start_urls = spiderUrl.split(";") protocol = '' hostname = '' def __init__(self, *args, **kwargs): super().__init__(*args, **kwargs) def start_requests(self): plat = platform.system().lower() if plat == 'linux' or plat == 'windows': connect = self.db_connect() cursor = connect.cursor() if self.table_exists(cursor, '0p5u9_qichexinxi') == 1: cursor.close() connect.close() self.temp_data() return pageNum = 1 + 1 for url in self.start_urls: for page in range(1, pageNum): next_link = url.format(page) yield scrapy.Request( url=next_link, callback=self.parse )
时间: 2023-06-14 12:06:07 浏览: 109
scrapy.org:scrapy.org网站
这是一个使用 Python 的 Scrapy 框架编写的爬虫程序,用于爬取汽车信息网站中的数据。具体来说,它通过访问一个 API 接口来获取数据,接口需要传入一些参数,如 token、sort、pn、rn、monitor 和 city,这些参数可以在 spiderUrl 中设置。在 start_requests 方法中,爬虫程序会循环访问不同的页数,从而获取更多的数据。如果数据库中已经存在相同的表,则不再进行数据爬取。
阅读全文