python爬取豆瓣电影短评
时间: 2023-11-11 12:04:53 浏览: 170
python爬取豆瓣短评
要使用Python爬取豆瓣电影短评,可以按照以下步骤进行:
1. 导入必要的库,包括requests、BeautifulSoup和pandas。
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
```
2. 定义一个函数,用于获取指定电影的短评。该函数需要传入电影的URL和要获取的页数。
```python
def get_comments(url, pages):
comments = []
for i in range(pages):
# 构造URL
url_page = url + 'comments?start=' + str(i * 20) + '&limit=20&status=P&sort=new_score'
# 发送请求
response = requests.get(url_page)
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 获取评论
items = soup.find_all('div', class_='comment-item')
for item in items:
comment = item.find('span', class_='short').text.strip()
comments.append(comment)
return comments
```
3. 调用该函数获取指定电影的短评,并将结果保存到CSV文件中。
```python
# 电影《肖申克的救赎》的URL
url = 'https://movie.douban.com/subject/1292052/'
# 获取短评
comments = get_comments(url, 5)
# 将结果保存到CSV文件中
df = pd.DataFrame({'comments': comments})
df.to_csv('comments.csv', index=False)
```
阅读全文