在pycharm中用beautifulsoup爬去旅游网页
时间: 2023-11-16 13:04:52 浏览: 90
下面是一个简单的例子,演示如何使用BeautifulSoup库爬取一个旅游网站上的信息。我们以去哪儿网为例,爬取北京市的酒店信息。代码如下:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://hotels.ctrip.com/hotel/beijing1#ctm_ref=hod_hp_sb_lst'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
hotel_list = soup.find_all('div', class_='hotel_new_list')
for hotel in hotel_list:
name = hotel.find('a', class_='hotel_name').text.strip()
score = hotel.find('span', class_='hotel_value').text.strip()
address = hotel.find('p', class_='hotel_item_htladdress').text.strip()
print(f'{name}:{score},{address}')
```
这个例子中,我们先向去哪儿网的北京酒店列表页面发送请求,获取响应。然后使用BeautifulSoup库解析响应的HTML代码,通过find_all()方法找到所有酒店信息所在的div标签,再通过find()方法找到每个酒店的名称、评分和地址信息。
最后打印出酒店的名称、评分和地址信息。可以看到,使用BeautifulSoup库可以轻松地从网页中提取出需要的信息。
阅读全文