写一段计算词集相似度的代码
时间: 2024-05-07 18:19:17 浏览: 69
计算两个词语的相似度
以下是 Python 代码实现计算词集相似度的函数:
```python
def jaccard_similarity(set1, set2):
"""
计算词集相似度
:param set1: 第一个词集,类型为 set
:param set2: 第二个词集,类型为 set
:return: 词集相似度,类型为 float
"""
intersection = set1.intersection(set2)
union = set1.union(set2)
return len(intersection) / len(union)
```
该函数接收两个参数,分别是两个词集。函数内部先计算这两个词集的交集和并集,然后用交集的大小除以并集的大小,得到词集相似度。
例如,假设有以下两个词集:
```python
set1 = set(['apple', 'banana', 'orange'])
set2 = set(['banana', 'kiwi', 'peach'])
```
调用 `jaccard_similarity(set1, set2)`,会返回 0.25,表示这两个词集的相似度为 0.25。
阅读全文