对1.xlsx进行分析,如果author列的数据相同,就去对比org列,如果都相同,将author相同且org也相同的数据导出为2.xlsx,其他的啧导出为3.xlsx
时间: 2024-04-13 20:31:09 浏览: 187
要对 `1.xlsx` 文件进行分析,根据 `author` 列和 `org` 列的数据进行对比,并将满足条件的数据导出到 `2.xlsx`,将其他数据导出到 `3.xlsx`,可以使用 Python 的 Pandas 库进行处理。以下是一个示例代码:
```python
import pandas as pd
# 读取原始数据
df = pd.read_excel("1.xlsx")
# 根据 author 和 org 列进行分组
groups = df.groupby(["author", "org"])
# 创建两个空的 DataFrame,用于存储满足条件和不满足条件的数据
matched_df = pd.DataFrame(columns=df.columns)
other_df = pd.DataFrame(columns=df.columns)
# 遍历分组,根据条件进行筛选并存储数据
for (author, org), group in groups:
if len(group) > 1 and group["org"].nunique() == 1:
# author 和 org 都相同的数据,且 org 列只有一个值
matched_df = matched_df.append(group)
else:
other_df = other_df.append(group)
# 保存满足条件和不满足条件的数据到不同的表格
matched_df.to_excel("2.xlsx", index=False)
other_df.to_excel("3.xlsx", index=False)
```
上述代码首先读取了名为 `1.xlsx` 的原始数据,并根据 `author` 和 `org` 列进行分组。然后,创建两个空的 DataFrame 用于存储满足条件的数据和不满足条件的数据。接下来,通过遍历分组,根据条件进行筛选,并将满足条件的数据追加到 `matched_df` DataFrame 中,其他数据追加到 `other_df` DataFrame 中。最后,将满足条件和不满足条件的数据分别保存到名为 `2.xlsx` 和 `3.xlsx` 的表格中。
请确保在运行代码之前已经安装了 Pandas 库,并将 `1.xlsx` 文件准确放置在当前工作目录下。
阅读全文