我想爬取豆瓣评分关于肖申克的救赎这部电影
时间: 2023-07-29 15:15:11 浏览: 180
您可以使用 Python 中的网络爬虫库来实现豆瓣电影评分的爬取。以下是一个示例代码,使用 BeautifulSoup 和 requests 库来爬取《肖申克的救赎》的评分:
```python
import requests
from bs4 import BeautifulSoup
# 豆瓣电影《肖申克的救赎》的链接
url = "https://movie.douban.com/subject/1292052/"
# 发送 GET 请求获取网页内容
response = requests.get(url)
# 使用 BeautifulSoup 解析网页内容
soup = BeautifulSoup(response.text, "html.parser")
# 获取电影评分的标签
rating_tag = soup.find("strong", class_="ll rating_num")
# 提取评分
rating = rating_tag.text.strip()
# 打印评分
print("《肖申克的救赎》的豆瓣评分为:", rating)
```
请注意,爬取网页数据时需要遵守网站的使用规则,避免对网站造成过大的压力或违反相关法律法规。在实际使用中,请确保合法合规,并尊重网站的爬虫策略。
相关问题
我想爬取豆瓣评论关于肖申克的救赎这部电影
要爬取豆瓣电影《肖申克的救赎》的评论,你可以使用 Python 的 requests 和 BeautifulSoup 库。首先,你需要安装这两个库(如果尚未安装):
```
pip install requests
pip install beautifulsoup4
```
接下来,你可以使用以下代码来爬取豆瓣评论:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/subject/1292052/comments' # 肖申克的救赎的豆瓣评论链接
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
} # 设置请求头,模拟浏览器访问
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
comments = soup.find_all('span', class_='short') # 获取评论内容
for comment in comments:
print(comment.text)
```
上述代码将打印出豆瓣电影《肖申克的救赎》的评论内容。请注意,爬取网站数据需要遵守网站的规则和法律法规。此代码仅供学习和参考使用,请勿滥用。
编写一个Python程序,爬取豆瓣电影"肖申克的救赎"的所有评论。 将爬取的评论数据保存到CSV文件中。
要编写一个Python程序爬取豆瓣电影《肖申克的救赎》的所有评论并将数据保存到CSV文件中,你需要使用一些网络抓取库,如`requests`和`BeautifulSoup`。这里是一个基本的步骤说明:
1. **安装所需库**:
首先确保已经安装了 `requests`, `beautifulsoup4`, 和 `pandas`,如果没有,可以使用下面的命令安装:
```bash
pip install requests beautifulsoup4 pandas
```
2. **获取网页内容**:
使用`requests.get`请求豆瓣电影页面,并解析HTML内容。
```python
import requests
from bs4 import BeautifulSoup
url = "https://movie.douban.com/subject/1292052/"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
```
3. **定位评论区域**:
找到评论列表的HTML元素,这通常在一个类似于`.commentlist`或`.comments`的class里。
```python
comments_container = soup.find('div', {'class': 'commentlist'})
```
4. **解析评论**:
遍历每个评论,提取关键信息如用户昵称、评分和评论内容。
```python
comment_elements = comments_container.find_all('li', {'class': 'comment-item'})
comments_data = []
for element in comment_elements:
username = element.find('span', {'class': 'comment-info'}).text.strip()
rating = element.find('span', {'class': 'rating_nums'}).text
content = element.find('div', {'class': 'short'}).text.strip()
comments_data.append((username, rating, content))
```
5. **保存到CSV**:
最后,使用`pandas`将数据保存到CSV文件。
```python
import pandas as pd
df_comments = pd.DataFrame(comments_data, columns=['用户名', '评分', '评论'])
df_comments.to_csv('肖申克的救赎评论.csv', index=False)
```
注意:网络抓取需遵守网站的robots.txt协议,尊重版权,不要频繁请求以免对服务器造成压力。实际操作时,可能需要登录豆瓣或其他网站才能访问某些数据,也可能有反爬虫策略,所以结果可能会因具体情况而异。
阅读全文