豆瓣top250电影数据清洗Python代码
时间: 2023-11-05 18:15:18 浏览: 75
以下是一个简单的Python代码,用于清洗豆瓣Top250电影数据:
```python
import pandas as pd
# 读取数据
df = pd.read_csv('douban_top250.csv')
# 删除重复项
df.drop_duplicates(inplace=True)
# 删除空值
df.dropna(inplace=True)
# 删除不必要的列
df.drop(['rank', 'vote'], axis=1, inplace=True)
# 提取国家/地区信息
df['country'] = df['title'].str.extract('\((.*?)\)')
# 删除国家/地区信息中的括号
df['title'] = df['title'].str.replace(r'\(.*?\)', '')
# 重命名列名
df.rename(columns={'title': 'movie', 'rating': 'score', 'director': 'directors', 'cast': 'casts'}, inplace=True)
# 提取导演信息
df['directors'] = df['directors'].str.split('/').apply(lambda x: [i.strip() for i in x])
# 提取演员信息
df['casts'] = df['casts'].str.split('/').apply(lambda x: [i.strip() for i in x])
# 提取年份信息
df['year'] = df['url'].str.extract('/subject/.*?/(\d{4})/')
# 删除不必要的列
df.drop(['url'], axis=1, inplace=True)
# 保存清洗后的数据
df.to_csv('cleaned_douban_top250.csv', index=False)
```
这段代码使用Pandas库来读取、清洗和保存数据。它执行以下操作:
1. 读取豆瓣Top250电影数据;
2. 删除重复项和空值;
3. 删除不必要的列;
4. 提取国家/地区信息并删除括号;
5. 重命名列名;
6. 提取导演和演员信息;
7. 提取年份信息;
8. 删除不必要的列;
9. 保存清洗后的数据。
你可以根据自己的需求对代码进行修改和优化。
阅读全文