处理1.xlsx中的数据,如果author列存在相同的数据,就对相同的author的org列进行筛选,如果author相同的同时,org也相同,保存为2.xlsx,否则 保存为3.xlsx
时间: 2024-04-14 13:29:43 浏览: 98
要对 `1.xlsx` 文件中的数据进行处理,如果 `author` 列存在相同的数据,则对相同的 `author` 的 `org` 列进行筛选,如果 `author` 相同的同时,`org` 也相同,则保存为 `2.xlsx`,否则保存为 `3.xlsx`。可以使用 Python 中的 Pandas 库进行处理。以下是一个示例代码:
```python
import pandas as pd
# 读取原始数据
df = pd.read_excel("1.xlsx")
# 判断是否存在相同的作者数据
duplicates = df.duplicated(subset=["author"], keep=False)
# 筛选相同作者且相同组织的数据并保存到 2.xlsx
same_df = df[duplicates]
same_org_duplicates = same_df.duplicated(subset=["author", "org"], keep=False)
same_org_df = same_df[same_org_duplicates]
same_org_df.to_excel("2.xlsx", index=False)
# 筛选其他数据并保存到 3.xlsx
other_df = df[~duplicates]
other_df.to_excel("3.xlsx", index=False)
```
上述代码首先读取了名为 `1.xlsx` 的原始数据。然后,使用 `duplicated()` 函数判断 `author` 列是否存在重复数据,并将结果保存到 `duplicates` 变量中。接着,通过筛选相同作者的数据(`duplicates=True`)将其存储到 `same_df` DataFrame 中。然后,使用 `duplicated()` 函数再次判断相同作者的数据中的 `org` 列是否存在重复数据,并将结果保存到 `same_org_duplicates` 变量中。接着,通过筛选同时满足相同作者和相同组织的数据将其存储到 `same_org_df` DataFrame 中,并将其保存为 `2.xlsx`。最后,通过筛选其他数据(`duplicates=False`)将其存储到 `other_df` DataFrame 中,并将其保存为 `3.xlsx`。
请确保在运行代码之前已经安装了 Pandas 库,并将 `1.xlsx` 文件准确放置在当前工作目录下。
阅读全文