首页选择一个网站用scrapy框架去爬取数据

选择一个网站用scrapy框架去爬取数据

时间: 2024-05-19 12:10:49 浏览: 102

使用scrapy框架对房天下的房源信息进行爬取数据

5星 · 资源好评率100%

使用scrapy框架对<a href="https://www1.fang.com/" title="title属性">房天下</a>的房源信息进行爬取数据存储到mysql数据库和csv文件中。主要对全国城市页面、新房页面、二手房页面、租房页面、商铺出租页面、商铺出售页面、我的收藏页面的数据进行爬取，实现模拟登录、反爬虫、去重，数据存储于数据库和cvs文件中。

我选择爬取豆瓣电影的数据。首先，需要在命令行中安装Scrapy： ``` pip install scrapy ``` 然后，在命令行中创建一个新的Scrapy项目： ``` scrapy startproject douban_movies ``` 进入项目文件夹，创建一个新的Spider： ``` cd douban_movies scrapy genspider movies_spider https://movie.douban.com/top250 ``` 接下来，在Spider的代码文件中设置好解析规则，使用XPath或CSS Selector等方式提取网页中的数据。例如，可以使用以下代码提取电影名称、评分、导演和主演： ```python import scrapy class MoviesSpider(scrapy.Spider): name = 'movies_spider' allowed_domains = ['movie.douban.com'] start_urls = ['https://movie.douban.com/top250'] def parse(self, response): movie_list = response.xpath('//div[@class="item"]') for movie in movie_list: title = movie.xpath('.//span[@class="title"]/text()').extract() rating = movie.xpath('.//span[@class="rating_num"]/text()').extract() director_and_cast = movie.xpath('.//p/text()').extract()[0].strip() director = director_and_cast.split(' ')[0][4:] cast = director_and_cast.split(' ')[1][3:] yield {'title': title, 'rating': rating, 'director': director, 'cast': cast} ``` 最后，在命令行中运行Spider并将数据输出到JSON文件中： ``` scrapy crawl movies_spider -o movies.json ``` 这样就可以得到一个包含豆瓣电影Top250的数据集了。

阅读全文