python爬取机票并可视化程序
时间: 2023-08-16 20:09:01 浏览: 47
好的,这里给出一个爬取机票并可视化的简单程序,仅供参考:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt
# 携程机票网址
url = 'https://flights.ctrip.com/schedule/'
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送 GET 请求
response = requests.get(url, headers=headers)
# 解析 HTML 页面
soup = BeautifulSoup(response.text, 'html.parser')
# 获取机票信息
flight_list = []
for item in soup.find_all('tr', class_='even') + soup.find_all('tr', class_='odd'):
td_list = item.find_all('td')
flight_info = {
'flight_num': td_list[0].get_text(),
'start_city': td_list[1].get_text(),
'end_city': td_list[2].get_text(),
'start_time': td_list[3].get_text(),
'end_time': td_list[4].get_text(),
'price': td_list[5].get_text()
}
flight_list.append(flight_info)
# 转换为 DataFrame 格式
df = pd.DataFrame(flight_list)
# 数据处理
df['price'] = df['price'].apply(lambda x: int(x.replace(',', '')))
df['start_time'] = pd.to_datetime(df['start_time'])
df['end_time'] = pd.to_datetime(df['end_time'])
df['duration'] = (df['end_time'] - df['start_time']).apply(lambda x: x.seconds // 3600)
# 绘制机票价格走势图
plt.plot(df['price'])
plt.xlabel('flight')
plt.ylabel('price')
plt.title('Price Trend of Flights')
plt.show()
# 绘制机票价格热力图
plt.hist2d(df['duration'], df['price'], bins=(10, 10), cmap=plt.cm.Blues)
plt.xlabel('duration')
plt.ylabel('price')
plt.title('Price Heatmap of Flights')
plt.colorbar()
plt.show()
```
这个程序利用 requests 库和 BeautifulSoup 库爬取了携程机票网站的机票信息,然后使用 pandas 库进行了数据处理,并使用 matplotlib 库绘制了机票价格走势图和机票价格热力图。具体的数据处理和可视化方法可以根据自己的需求进行调整。
阅读全文