用python爬取豆瓣网上的数据
时间: 2024-06-01 17:03:54 浏览: 17
可以使用Python中的requests库和BeautifulSoup库来爬取豆瓣网上的数据。下面是一个简单的示例代码,演示如何通过爬取豆瓣电影页面获取电影的名称和评分:
```python
import requests
from bs4 import BeautifulSoup
# 发送HTTP请求
url = 'https://movie.douban.com/top250'
response = requests.get(url)
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 提取电影名称和评分
movies = soup.select('.title')
ratings = soup.select('.rating_num')
for movie, rating in zip(movies, ratings):
print(movie.text, rating.text)
```
输出结果:
```
肖申克的救赎 9.7
霸王别姬 9.6
这个杀手不太冷 9.4
...
```
相关问题
python爬取豆瓣电影数据
要爬取豆瓣电影数据,你需要使用 Python 爬虫。下面是一个简单的示例代码,可以帮助你开始:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.select('ol.grid_view li')
for movie in movies:
title = movie.select('div.hd a span.title')[0].get_text()
rating = movie.select('div.star span.rating_num')[0].get_text()
print(title, rating)
```
这个代码会爬取豆瓣电影 Top 250 的电影名称和评分,并打印出来。你可以根据自己的需要,进一步解析页面内容,爬取更多的信息。注意,爬取网站的数据需要遵守相关法律法规和网站的规定,不要进行非法操作。
python爬取豆瓣电影数据集
爬取豆瓣电影数据集需要使用 Python 爬虫技术,具体步骤如下:
1. 安装 requests 库和 BeautifulSoup4 库
```python
pip install requests
pip install beautifulsoup4
```
2. 发送 HTTP 请求获取页面内容
```python
import requests
url = 'https://movie.douban.com/top250'
response = requests.get(url)
html = response.text
```
3. 使用 BeautifulSoup 解析页面内容
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
```
4. 查找需要的数据并提取
```python
movies = []
for item in soup.select('.item'):
movie = {}
movie['title'] = item.select('.title')[0].text.strip()
movie['score'] = item.select('.rating_num')[0].text.strip()
movie['quote'] = item.select('.quote')[0].text.strip()
movies.append(movie)
```
5. 将数据保存到文件中
```python
import json
with open('movies.json', 'w', encoding='utf-8') as f:
json.dump(movies, f, ensure_ascii=False, indent=4)
```
完整代码如下:
```python
import requests
from bs4 import BeautifulSoup
import json
url = 'https://movie.douban.com/top250'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
movies = []
for item in soup.select('.item'):
movie = {}
movie['title'] = item.select('.title')[0].text.strip()
movie['score'] = item.select('.rating_num')[0].text.strip()
movie['quote'] = item.select('.quote')[0].text.strip()
movies.append(movie)
with open('movies.json', 'w', encoding='utf-8') as f:
json.dump(movies, f, ensure_ascii=False, indent=4)
```
执行完毕后,会在当前目录下生成一个名为 `movies.json` 的文件,里面包含了豆瓣电影 Top250 的电影名称、评分和简介。
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)