python爬虫案例➕可视化
时间: 2024-07-16 10:01:33 浏览: 438
Python爬虫案例通常用于从网站抓取数据,如新闻、产品信息等。一个常见的例子就是爬取豆瓣电影Top250的电影列表,包括电影名、评分和简介。首先,我们可以使用requests库获取网页内容,然后解析HTML结构,通常通过BeautifulSoup或 lxml 库帮助我们提取所需的数据。
对于可视化部分,可以将爬取到的数据存储在CSV或数据库中,然后利用Python的数据可视化库 Matplotlib 或 Seaborn 来创建图表。比如,可以制作柱状图展示每部电影的评分分布,或者折线图显示电影评分随时间的变化趋势。
以下是一个简单的示例:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt
# 爬取豆瓣电影Top250页面
url = "https://movie.douban.com/top250"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 提取数据
movies_data = []
for each in soup.find_all('div', class_='hd'):
title = each.find('span').text
rating = float(each.find('span', class_='rating_num')['title'])
movies_data.append({'电影名称': title, '评分': rating})
movies_df = pd.DataFrame(movies_data)
# 数据保存
movies_df.to_csv('douban_top250.csv', index=False)
# 可视化评分
plt.figure(figsize=(10, 6))
plt.hist(movies_df['评分'], bins=10)
plt.xlabel('评分')
plt.ylabel('电影数量')
plt.title('豆瓣电影Top250评分分布')
plt.show()
```