读取桌面的1000_[].xlsx文件,从第二行开始,如果author 列有同名,就检查org列,如果 org列的数据利用difflib,相似度大于0.9,就将这两行合并,合并行除了author 和 org的数据,其他数据选择其中一行保存,并保存在桌面上为 1000_md.xlsx
时间: 2024-04-12 09:30:17 浏览: 117
要实现你的需求,你可以使用 Pandas 和 difflib 模块。difflib 模块可以用于计算字符串之间的相似度。以下是一个示例代码,可以帮助你实现这个任务:
```python
import pandas as pd
import difflib
# 读取 Excel 文件
df = pd.read_excel(r'C:\Users\用户名\Desktop\1000_[].xlsx')
# 从第二行开始筛选数据
df = df.iloc[1:]
# 检查重复行,并合并相似的行
merged_rows = []
seen_authors = set()
for _, row in df.iterrows():
author = row['author']
org = row['org']
if author in seen_authors:
for merged_row in merged_rows:
if merged_row['author'] == author and difflib.SequenceMatcher(None, merged_row['org'], org).ratio() > 0.9:
merged_row.update(row)
break
else:
merged_rows.append(row)
else:
merged_rows.append(row)
seen_authors.add(author)
# 创建新的数据框
merged_df = pd.DataFrame(merged_rows)
# 保存合并后的数据到新的 Excel 文件
merged_df.to_excel(r'C:\Users\用户名\Desktop\1000_md.xlsx', index=False)
```
请注意,你需要将 `C:\Users\用户名\Desktop\1000_[].xlsx` 替换为你实际的文件路径。另外,确保你已经安装了 Pandas 和 difflib 模块。
运行以上代码后,将会生成一个名为 `1000_md.xlsx` 的文件,并包含了从第二行开始的数据。如果某两行的 author 列有相同的名字,并且 org 列的相似度大于 0.9,则这两行将被合并。合并后的行将选择其中一行的数据,并保留 author 和 org 列的值。
希望对你有所帮助!
阅读全文