请用Python爬虫豆瓣评分前一百数据
时间: 2023-11-19 18:16:37 浏览: 35
好的,我可以帮你实现这个功能。以下是Python爬虫代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.find('ol', class_='grid_view').find_all('li')
for movie in movies:
title = movie.find('span', class_='title').text
score = movie.find('span', class_='rating_num').text
print(title, score)
```
这个代码使用requests库和BeautifulSoup库来获取豆瓣电影Top250的网页内容,并从中提取出前一百部电影的名称和评分,最后将它们打印出来。你可以根据自己的需要对爬取的数据进行保存或处理。
相关问题
python爬虫豆瓣歌曲评分代码
你可以使用Python的Requests库来获取网页内容,使用BeautifulSoup库来解析网页内容,并使用pandas库来处理数据。下面是一个简单的示例代码,它可以爬取豆瓣音乐中"周杰伦"的所有歌曲评分:
``` python
import requests
from bs4 import BeautifulSoup
import pandas as pd
url = 'https://music.douban.com/subject_search?search_text=%E5%91%A8%E6%9D%B0%E4%BC%A6&cat=1003'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
song_list = soup.select('.song-item')
data_list = []
for song in song_list:
title = song.select('.song-name-short > a').text.strip()
rating = song.select('.rating > span').text.strip()
data_list.append({'title': title, 'rating': rating})
df = pd.DataFrame(data_list)
print(df)
```
上述代码中,我们首先使用requests库获取豆瓣音乐中"周杰伦"的搜索结果页面,然后使用BeautifulSoup库解析页面内容,获取每首歌曲的标题和评分信息。最后使用pandas库将数据转换成DataFrame格式并输出。
python爬虫豆瓣电影数据
您好!对于爬取豆瓣电影数据,您可以使用Python的爬虫框架,例如Scrapy或BeautifulSoup。以下是一个简单的示代码,用于爬取豆瓣电影的名称和评分:
```python
import requests
from bs4 import BeautifulSoup
# 发起GET请求获取页面内容
url = 'https://movie.douban.com/top250'
response = requests.get(url)
# 使用BeautifulSoup解析页面内容
soup = BeautifulSoup(response.text, 'html.parser')
# 定位电影列表
movie_list = soup.select('.grid_view li')
# 遍历电影列表并提取数据
for movie in movie_list:
# 电影名称
title = movie.select('.title')[0].text
# 电影评分
rating = movie.select('.rating_num')[0].text
print('电影名称:', title)
print('电影评分:', rating)
print('---')
```
这段代码会爬取豆瓣电影Top250的电影名称和评分,并输出到控制台。您可以根据自己的需求进行进一步处理和存储数据。请注意,爬取网站数据时,请遵守网站的使用规则并尊重网站的反爬机制。