使用python对豆瓣图书Top250excel表进行数据清洗和转换操作
时间: 2024-03-14 20:45:37 浏览: 112
好的,您可以使用 pandas 库来进行数据清洗和转换操作。首先,您需要安装 pandas 库,可以通过以下命令进行安装:
```
pip install pandas
```
接下来,您可以使用以下代码来读取 Excel 文件:
```
import pandas as pd
df = pd.read_excel('豆瓣图书Top250.xlsx')
```
读取完成后,您可以使用以下代码来查看数据的前几行:
```
print(df.head())
```
接下来,您可以使用以下代码来进行数据清洗和转换:
1. 删除不需要的列:
```
df.drop(['序号', '链接'], axis=1, inplace=True)
```
2. 删除重复行:
```
df.drop_duplicates(inplace=True)
```
3. 分离作者和出版社:
```
df[['作者', '出版社']] = df['作者出版社'].str.split('/', expand=True)
df.drop('作者出版社', axis=1, inplace=True)
```
4. 分离出版年份:
```
df['出版年份'] = df['出版年月日'].str[:4]
df.drop('出版年月日', axis=1, inplace=True)
```
5. 转换评分为浮点数:
```
df['评分'] = df['评分'].astype(float)
```
完成以上操作后,您可以使用以下代码将数据保存为新的 Excel 文件:
```
df.to_excel('清洗后的豆瓣图书Top250.xlsx', index=False)
```
以上就是使用 pandas 库对豆瓣图书 Top250 Excel 表进行数据清洗和转换的基本步骤。
阅读全文