用python对1.xlsx的author列进行处理,如果author中存在相同的数据,将此行的org、author、id等数据存储为same.xlsx。 不存在相同的数据,则存储为unique.xlsx
时间: 2024-04-13 18:30:56 浏览: 112
要对 `1.xlsx` 文件中的 `author` 列进行处理,并将相同数据的行存储到 `same.xlsx`,不重复数据的行存储到 `unique.xlsx`,可以使用 Python 中的 Pandas 库进行处理。以下是一个示例代码:
```python
import pandas as pd
# 读取原始数据
df = pd.read_excel("1.xlsx")
# 判断是否存在相同的作者数据
duplicates = df.duplicated(subset=["author"], keep=False)
# 筛选相同作者的数据并保存到 same.xlsx
same_df = df[duplicates]
same_df.to_excel("same.xlsx", index=False)
# 筛选不重复的数据并保存到 unique.xlsx
unique_df = df[~duplicates]
unique_df.to_excel("unique.xlsx", index=False)
```
上述代码首先读取了名为 `1.xlsx` 的原始数据。然后,使用 `duplicated()` 函数判断 `author` 列是否存在重复数据,并将结果保存到 `duplicates` 变量中。接着,通过筛选相同作者的数据(`duplicates=True`)将其存储到 `same_df` DataFrame 中,并将其保存为 `same.xlsx`。最后,通过筛选不重复的数据(`duplicates=False`)将其存储到 `unique_df` DataFrame 中,并将其保存为 `unique.xlsx`。
请确保在运行代码之前已经安装了 Pandas 库,并将 `1.xlsx` 文件准确放置在当前工作目录下。
阅读全文