python爬虫大作业
时间: 2023-11-01 11:08:34 浏览: 79
python爬虫课作业
好的,Python 爬虫大作业有很多不同的方向,可以根据个人兴趣和实际需求来选择。
以下是一个简单的 Python 爬虫大作业的示例:
1. 爬取豆瓣电影 TOP250 的电影信息,并将数据保存到 Excel 文件中。
步骤:
- 分析豆瓣电影 TOP250 页面的 HTML 结构,确定需要爬取的数据。
- 使用 Python 的 requests 库发送 HTTP 请求,获取网页的 HTML 内容。
- 使用 BeautifulSoup 库解析 HTML 内容,提取需要的电影信息。
- 使用 Pandas 库创建 DataFrame 对象,将电影信息存入其中。
- 将 DataFrame 对象保存为 Excel 文件。
示例代码:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
url = 'https://movie.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
movie_list = []
for i in range(0, 250, 25):
params = {'start': str(i), 'filter': ''}
response = requests.get(url, params=params, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
items = soup.find_all('div', class_='item')
for item in items:
name = item.find('img')['alt']
score = item.find('span', class_='rating_num').text
director = item.find('p').text.split('\n')[1].strip().replace('导演: ', '')
actors = item.find('p').text.split('\n')[2].strip().replace('主演: ', '')
year = item.find('p', class_='').text.split('\n')[1].strip()
movie_list.append({'name': name, 'score': score, 'director': director, 'actors': actors, 'year': year})
df = pd.DataFrame(movie_list)
df.to_excel('top250.xlsx', index=False)
```
以上是一个简单的 Python 爬虫大作业的示例,希望能够帮到你!
阅读全文