用python,逐行比较excel第一、第二列的两个单元格之间的文本的相似度,并将结果写入第三列
时间: 2024-05-08 10:15:32 浏览: 97
可以使用Python中的pandas库来读取excel文件,并使用difflib库中的SequenceMatcher类计算两个字符串之间的相似度。以下是示例代码:
```python
import pandas as pd
from difflib import SequenceMatcher
# 读取excel文件
df = pd.read_excel('example.xlsx')
# 定义函数计算相似度
def similarity(s1, s2):
return SequenceMatcher(None, s1, s2).ratio()
# 逐行比较并写入结果
for i in range(len(df)):
sim = similarity(df.iloc[i, 0], df.iloc[i, 1])
df.at[i, '相似度'] = sim
# 保存结果到excel文件
df.to_excel('result.xlsx', index=False)
```
上述代码中,我们使用pandas的read_excel函数读取了一个名为example.xlsx的excel文件,然后定义了一个名为similarity的函数,用于计算两个字符串之间的相似度。接着,我们使用for循环逐行比较excel第一列和第二列的单元格,并调用similarity函数计算它们之间的相似度,最后将结果写入第三列。最后,我们使用pandas的to_excel函数将结果保存到名为result.xlsx的excel文件中。
阅读全文