爬虫爬取酒店数据代码和结果
时间: 2024-09-22 13:03:43 浏览: 38
爬虫抓取酒店数据的代码通常会涉及网络请求、HTML解析以及数据存储等步骤,这里以Python的Scrapy库为例来简述一下:
首先,你需要安装Scrapy库:
```bash
pip install scrapy
```
然后创建一个新的Scrapy项目:
```bash
scrapy startproject hotel_spider
```
接着,在`hotel_spider/spiders`目录下创建一个名为`hotel_spider.py`的文件,编写基础的爬虫代码如下:
```python
import scrapy
class HotelSpider(scrapy.Spider):
name = 'hotel'
allowed_domains = ['example.com'] # 将这里的域名替换为你想爬取的酒店网站
start_urls = ['http://example.com/hotels']
def parse(self, response):
for hotel_item in response.css('div.hotel-item'): # 根据网页结构选择元素
title = hotel_item.css('h2::text').get()
price = hotel_item.css('.price::text').get()
yield {
'title': title,
'price': price,
}
next_page = response.css('a.next::attr(href)').get() # 获取下一页链接
if next_page is not None:
yield response.follow(next_page, self.parse)
```
这个例子中,我们假设酒店信息在CSS选择器'div.hotel-item'中,标题在'h2'标签内,价格在'.price'标签内。爬虫会遍历每页找到的酒店项,并将数据yield出来。
运行爬虫:
```bash
cd hotel_spider
scrapy crawl hotel
```
最后,你会看到类似这样的输出,包含抓取到的酒店标题和价格,数据会保存在`hotel_spider/items.py`中的定义的数据模型中,或者按照自定义的方式存储在数据库或文件中。
阅读全文