豆瓣top250电影数据去重
时间: 2023-10-24 07:08:22 浏览: 70
豆瓣top250电影数据去重可以通过以下步骤进行:
1. 将豆瓣top250电影数据导入到一个列表中。
2. 创建一个空集合。
3. 遍历列表中的每个电影,将电影名称添加到集合中。
4. 集合中只会保留唯一的电影名称,因此可以将集合中的元素转换回列表,即可得到去重后的电影数据。
下面是一个示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 获取豆瓣top250电影数据
url = 'https://movie.douban.com/top250'
movies = []
for start in range(0, 250, 25):
r = requests.get(url, params={'start': start})
soup = BeautifulSoup(r.text, 'html.parser')
items = soup.find_all('div', class_='hd')
for item in items:
title = item.a.span.text.strip()
movies.append(title)
# 去重
movies_unique = list(set(movies))
# 打印去重后的电影数据
for movie in movies_unique:
print(movie)
```
在上面的代码中,我们首先使用 requests 和 BeautifulSoup 库获取豆瓣top250电影数据,并将电影名称添加到一个列表中。然后,我们使用 set() 函数将列表转换为集合,这样就可以去掉重复的电影名称。最后,我们将集合转换回列表,并遍历列表打印去重后的电影数据。
阅读全文