杰卡德相似系数python
时间: 2023-12-16 17:28:03 浏览: 120
基于Django+node.js+MySQL+杰卡德相似系数智能新闻推荐系统-机器学习算法应用(含Python源码)+数据集
杰卡德相似系数是一种常用的文本相似度计算方法,通常用于对比两个文本集合之间的相似性。该算法基于集合论的思想,通过计算两个集合之间的交集和并集大小来确定它们之间的相似程度。在Python中,我们可以轻松地实现这种算法。
以下是一个计算杰卡德相似系数的Python函数:
```python
def jaccard_similarity(s1, s2):
"""
计算两个集合s1和s2之间的杰卡德相似系数
"""
set1 = set(s1.split())
set2 = set(s2.split())
intersection = len(set1 & set2)
union = len(set1 | set2)
return intersection / union
```
该函数接受两个字符串作为输入,并将它们转换为集合。然后,它计算两个集合之间的交集和并集大小,并返回它们之间的杰卡德相似系数。
以下是一个使用上述函数计算一组文本中所有相似度的Python代码示例:
```python
texts = ["apple banana orange", "banana grapefruit", "orange pear peach"]
n = len(texts)
similarities = [[0] * n for _ in range(n)]
for i in range(n):
for j in range(i + 1, n):
similarity = jaccard_similarity(texts[i], texts[j])
similarities[i][j] = similarity
print(similarities)
```
该代码示例定义了一个包含三个字符串的列表,然后使用嵌套循环计算每对字符串之间的杰卡德相似系数,并将结果存储在一个二维列表中。最后,它打印出这个二维列表。
阅读全文