python fuzzywuzzy匹配excel表格

Fuzzywuzzy是Python中一个用于字符串匹配的库。它基于Levenshtein距离算法，可以对两个字符串进行相似度计算。在实际工作中，我们常常需要对Excel表格中的数据进行匹配，这时，我们可以使用Fuzzywuzzy库，实现基于字符串的模糊匹配。首先，我们需要用pandas读取Excel表格，并将需要匹配的数据转换成字符串格式。然后，我们可以使用Fuzzywuzzy库中的process函数，对每个字符串进行匹配，并得到一个最相似的字符串结果。我们还可以设置阈值来控制匹配的准确度。具体的操作步骤包括：导入Fuzzywuzzy库、导入Excel表格、转换为字符串格式、设置匹配阈值、使用process函数进行匹配。总的来说，使用Fuzzywuzzy库进行字符串匹配，可以大大提高我们处理Excel表格的效率和准确性。虽然在匹配过程中可能会出现误差，但对于一些相对简单、重复性高的匹配问题，Fuzzywuzzy仍然是一个十分实用的工具。

python 对excel表格中的A列和B列进行模糊匹配

在Python中，可以使用`pandas`库以及`openpyxl`库来进行Excel表格的模糊匹配。这里我们假设你有两个DataFrame，df1和df2，它们分别对应于两个Excel工作表的A列和B列。 1. **读取Excel数据**[^1]: ```python df1 = pd.read_excel(r'D:\杂货\项目.xlsx', sheet_name='Sheet1') df2 = pd.read_excel(r'D:\杂货\项目2.xlsx', sheet_name='Sheet1') ``` 2. **定义模糊匹配函数**[^2]: 通常我们可以使用`fuzzywuzzy`库（如`process.extract`函数）来实现模糊匹配。安装库（如果未安装）： ```shell !pip install fuzzywuzzy[lazy] from fuzzywuzzy import fuzz ``` 然后创建一个函数来执行匹配： ```python def fuzzy_match_column(df1_col, df2_col): matches = [] for item1 in df1_col: best_match = max(df2_col, key=lambda x: fuzz.ratio(item1, x)) matches.append((item1, best_match)) return matches ``` 3. **应用到实际数据**: ```python matches = fuzzy_match_column(df1['A列'], df2['B列']) ``` 这将会返回一个元组列表，其中每个元素包含df1中A列的一个元素及其在df2中B列的最佳匹配。

import pandas as pd from fuzzywuzzy import fuzz, process # 读取两个表格 df1 = pd.read_excel('table1.xlsx') df2 = pd.read_excel('table2.xlsx') # 将姓名列转换为字符串类型 df1['姓名'] = df1['姓名'].astype(str) df2['姓名'] = df2['姓名'].astype(str) # 合并姓名列 names = pd.concat([df1['姓名'], df2['姓名']]) # 定义一个匹配函数 def match(name, choices): return process.extractOne(name, choices, scorer=fuzz.token_sort_ratio)[0] # 对每个姓名进行匹配，并统计出现次数 counts = names.groupby(lambda x: match(x, names)).count().sort_values(ascending=False) # 保存结果为 Excel 表格 counts.to_excel('counts.xlsx')在后面显示保存的excle表格

好的，您可以在代码最后添加以下代码来打开保存的 Excel 表格： ```python import os # 获取当前工作目录 cwd = os.getcwd() # 打开保存的 Excel 表格 os.startfile(cwd + '/counts.xlsx') ``` 完整代码如下： ```python import pandas as pd from fuzzywuzzy import fuzz, process import os # 读取两个表格 df1 = pd.read_excel('table1.xlsx') df2 = pd.read_excel('table2.xlsx') # 将姓名列转换为字符串类型 df1['姓名'] = df1['姓名'].astype(str) df2['姓名'] = df2['姓名'].astype(str) # 合并姓名列 names = pd.concat([df1['姓名'], df2['姓名']]) # 定义一个匹配函数 def match(name, choices): return process.extractOne(name, choices, scorer=fuzz.token_sort_ratio)[0] # 对每个姓名进行匹配，并统计出现次数 counts = names.groupby(lambda x: match(x, names)).count().sort_values(ascending=False) # 保存结果为 Excel 表格 counts.to_excel('counts.xlsx') # 获取当前工作目录 cwd = os.getcwd() # 打开保存的 Excel 表格 os.startfile(cwd + '/counts.xlsx') ``` 执行完毕后会自动打开保存的 Excel 表格。

阅读全文

python fuzzywuzzy匹配excel表格

python 对excel表格中的A列和B列进行模糊匹配

相关推荐

掌握Python进行高效Excel表格数据处理技巧

掌握Python中FuzzyWuzzy模糊匹配技术

Python实现Excel表格格式与字体设置详解

用Python的pandas框架操作Excel文件中的数据教程

python 开发库介绍

Python 资源大全.docx

Python常见第三方库

常用Python爬虫库汇总.docx

常用Python爬虫库汇总.pdf

1000+常用Python库大全.docx

FuzzyWuzzy与Pandas的完美结合：提高数据处理效率的技巧

用python将两个excle表格的姓名列单独合并，并且模糊统计每个姓名出现的次数

python处理两个excel中的某列，他们的列名不同，列中单元格包含有相似信息，其他信息不必完全相同，则保存

python中对于excle中的名字怎么进行模糊匹配合并

python中对于excle中的名字怎么进行模糊匹配合并，并统计每个名字出现的次数

pandas用模糊匹配匹配两个表中楼盘的坐落

使用Python的openpyxl库处理Excel表格教程

大家在看

LITE-ON FW spec PS-2801-9L rev A01_20161118.pdf

Basler GigE中文在指导手册

独家2006-2021共16年280+地级市绿色全要素生产率与分解项、原始数据，多种方法！

TS流结构分析(PAT和PMT).doc

2017年青年科学基金—填报说明、撰写提纲及模板.

最新推荐

零基础使用Python读写处理Excel表格的方法

使用matlab或python将txt文件转为excel表格

利用Python实现Excel的文件间的数据匹配功能

Python脚本操作Excel实现批量替换功能

使用Python导出Excel图表以及导出为图片的方法

免安装JDK 1.8.0_241：即刻配置环境运行

管理建模和仿真的文件

【提升效率与稳定性】：深入掌握单相整流器的控制策略

你看这是ashx映射的cs文件初始代码,你看这里边根本就没有写对action参数进行任何操作但你.ashx?action=submit这样去做他就能返回出数据这是为什么

机器学习预测葡萄酒评分：二值化品尝笔记的应用