读取桌面的1000.xlsx文件，并比较author列的相似度，将相似度>0.9的合并保存，输出为merged_1000.xlsx文件

要读取桌面上的1000.xlsx文件并比较其中的"author"列的相似度，并将相似度大于0.9的行进行合并保存为merged_1000.xlsx文件，可以使用以下代码：

import pandas as pd
from difflib import SequenceMatcher

# 读取Excel文件
file_path = r'C:\Users\Admin\Desktop\1000.xlsx'
df = pd.read_excel(file_path)

# 比较相似度函数
def similarity(a, b):
    return SequenceMatcher(None, str(a), str(b)).ratio()

# 合并相似度大于0.9的行
merged_df = pd.DataFrame(columns=df.columns)  # 创建空的DataFrame用于保存合并后的数据
for i, row in df.iterrows():
    if i == 0:
        merged_df = merged_df.append(row)  # 将第一行添加到合并后的DataFrame中
    else:
        is_merged = False
        for j, merged_row in merged_df.iterrows():
            if similarity(row['author'], merged_row['author']) > 0.9:  # 比较相似度
                merged_df.at[j, 'author'] += ', ' + str(row['author'])  # 合并author列
                is_merged = True
                break
        if not is_merged:
            merged_df = merged_df.append(row)  # 将不与任何行相似的行添加到合并后的DataFrame中

# 保存合并后的数据为Excel文件
merged_file_path = r'C:\Users\Admin\Desktop\merged_1000.xlsx'
merged_df.to_excel(merged_file_path, index=False)

print("合并后的数据已保存到: ", merged_file_path)

在上述代码中，首先导入了pandas库和difflib库的SequenceMatcher类。然后，使用pd.read_excel()函数读取桌面上的1000.xlsx文件，并将其存储在名为df的DataFrame对象中。

接下来，定义了一个相似度比较函数similarity()，该函数使用SequenceMatcher类来计算两个字符串的相似度。

然后，创建了一个空的DataFrame merged_df 用于保存合并后的数据。

通过迭代df中的每一行，与merged_df中的每一行进行相似度比较。如果相似度大于0.9，则将当前行的"author"列合并到merged_df中相似行的"author"列中。如果不与任何行相似，则将当前行添加到merged_df中。

最后，使用to_excel()方法将合并后的数据保存为merged_1000.xlsx文件。

请确保将file_path 和 merged_file_path 替换为你实际的文件路径。

向AI提问

读取桌面的1000.xlsx文件，并比较author列的相似度，将相似度>0.9的合并保存，输出为merged_1000.xlsx文件

相关推荐

iOS平台下.xlsx文件解析技术指南

iOS平台使用ZXlsxParser框架解析.xlsx文件教程

Java操作Excel：读取.xls和.xlsx文件的特定列

读取桌面的1000.xlsx文件 并用difflib对author列的作者名称进行相似度比较，将>0.9的进行合并 保存为1000_merged.xlsx文件

帮我写一个difflib代码，从桌面读取1000.xlsx文件，对author列进行相似度比较，相似度大于0.9的合并 并 保存为 1000_merged.xlsx在桌面

python 使用difflib比较1000.xlsx文件中姓名列的相似度，并将高相似度的姓名合并

openxlsx:用于读取和写入.xlsx文件的R包

Java 读取本地.xls .xlsx文件

Unity读取Excel.xlsx文件工程代码

疾病数据库2019.xlsx疾病数据库2019_.xlsx

S32K144_IO_Signal_Description_Input_Multiplexing.xlsx.xlsx

软件功能清单-仿Boss直聘.xlsx_xlsx文件转xls

烟台市餐饮poi数据2020年wsgs84坐标.xlsx_xlsx文件转xls

读取excel（.xls，.xlsx）文件JAVA源代码

com.tencent.qb.plugin.xlsx_算例_

read-excel-file:在浏览器或 Node.js 中读取 *.xlsx 文件。 使用严格的模式解析为 JSON

Python大数据分析与机器学习之线性回归模型数据——“IT行业收入表.xlsx”IT行业收入表_.xlsx

1.xlsx中有author列和org列，有的数据author相同，如何识别author是否相同，并计算author相同时，org直接的最大相似度。并将相似度数据保存为一列，对应author和org，保存在1.xlsx中

1.xlsx中有author列和org列，有的数据author相同，如何识别author是否相同，并计算author相同时，org直接的最大相似度。并将相似度数据保存为一列，对应author和org，保存在same1.xlsx中

大家在看

adina经验指导中文用户手册

手机号码段全国归属地数据库（共360569条记录）txt文件和sql文件

极域课堂管理系统软件v6.0-2.7.17466 2023专业版

某大型国企信息化项目验收管理办法.pdf

Tradaboost:学习Tradaboost的直观示例

最新推荐

Linux下xlsx文件转txt文件.docx

qtz40塔式起重机总体及塔身有限元分析法设计().zip

iOS开发中的HTTP请求方法演示

【精准测试】：确保分层数据流图准确性的完整测试方法

错误: 找不到或无法加载主类 org.springblade.Application 原因: java.lang.ClassNotFoundException: org.springblade.Application

个人作品集展示：HTML文件夹压缩处理

【版本控制】：分层数据流图的高效维护与变更管理

如何用tiff获取等温线，在qgis中，我的qgis是英文版的

新增临界天数与利率表显示的定期存款利息计算器

【敏捷适配】：在敏捷开发中维持分层数据流图的有效性

读取桌面的1000.xlsx文件并用difflib对author列的作者名称进行相似度比较，将>0.9的进行合并保存为1000_merged.xlsx文件

帮我写一个difflib代码，从桌面读取1000.xlsx文件，对author列进行相似度比较，相似度大于0.9的合并并保存为 1000_merged.xlsx在桌面

read-excel-file:在浏览器或 Node.js 中读取 *.xlsx 文件。使用严格的模式解析为 JSON