爬虫去哪儿网分析并可视化的代码
时间: 2023-09-21 17:04:42 浏览: 92
python爬虫数据可视化分析大作业代码.zip
好的,以下是一个简单的爬虫去哪儿网并分析数据的代码示例,代码中使用了 Python 的 requests 库、BeautifulSoup 库、pandas 库和 matplotlib 库。请注意,这里的代码仅供参考,具体实现细节还需要根据实际情况进行调整。
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt
# 爬取去哪儿网酒店评论数据
url = "http://hotel.qunar.com/city/guangzhou/#fromDate=2021-09-01&toDate=2021-09-02&cityurl=guangzhou&adults=2&children=0&ages=&qHtlBtn=&qDest=%E5%B9%BF%E5%B7%9E&qAct=home#fromDate=2021-09-01&toDate=2021-09-02&cityurl=guangzhou&adults=2&children=0&ages=&qHtlBtn=&qDest=%E5%B9%BF%E5%B7%9E&qAct=home&page=1"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, "html.parser")
# 解析数据并存储到 DataFrame 中
hotel_list = soup.select(".b_hotel_item")
data = []
for hotel in hotel_list:
name = hotel.find("span", class_="item_hotel_title").text.strip()
score = hotel.find("span", class_="item_hotel_score").text.strip()
price = hotel.find("span", class_="item_price").text.strip()
comment = hotel.find("span", class_="item_comment_num").text.strip()
data.append([name, score, price, comment])
df = pd.DataFrame(data, columns=["name", "score", "price", "comment"])
# 数据分析和可视化
score_hist = df["score"].astype(float).plot(kind="hist", bins=10, alpha=0.5)
plt.title("Hotel Score Distribution")
plt.xlabel("Score")
plt.ylabel("Count")
plt.show()
price_boxplot = df["price"].astype(int).plot(kind="box", vert=False)
plt.title("Hotel Price Boxplot")
plt.xlabel("Price")
plt.show()
```
以上代码中,我们首先使用 requests 库和 BeautifulSoup 库爬取了去哪儿网广州酒店的评论数据,然后将数据解析并存储到 DataFrame 中,最后使用 pandas 库和 matplotlib 库进行数据分析和可视化。其中,score_hist 绘制了酒店评分的直方图,price_boxplot 绘制了酒店价格的箱线图。
阅读全文