首页豆瓣top250电影数据清洗Python代码

豆瓣top250电影数据清洗Python代码

时间: 2023-11-05 10:03:02 浏览: 93

以下是一个简单的豆瓣top250电影数据清洗的Python代码示例： ```python import pandas as pd # 读取原始数据 df = pd.read_csv('douban_top250.csv') # 去除重复项 df.drop_duplicates(inplace=True) # 处理评分数据 df['rating'] = df['rating'].str.replace(' ', '').str.replace('\n', '') df['rating_num'] = df['rating'].str.extract('(\d+)') # 处理导演数据 df['director'] = df['director'].str.replace(' ', '').str.split('/') # 处理主演数据 df['actor'] = df['actor'].str.replace(' ', '').str.split('/') # 处理制片国家/地区数据 df['country'] = df['country'].str.replace(' ', '').str.replace('\n', '').str.split('/') # 处理类型数据 df['genre'] = df['genre'].str.replace(' ', '').str.replace('\n', '').str.split('/') # 处理上映日期数据 df['release_date'] = df['release_date'].str.replace(' ', '').str.replace('\n', '').str.split('(').str[0] # 处理电影时长数据 df['runtime'] = df['runtime'].str.replace(' ', '').str.replace('\n', '').str.extract('(\d+)') # 保存清洗后的数据 df.to_csv('douban_top250_cleaned.csv', index=False) ``` 这段代码先使用Pandas库读取原始数据，然后去除重复项，接着对评分、导演、主演、制片国家/地区、类型、上映日期和电影时长等数据进行清洗和处理，最后保存清洗后的数据。

阅读全文