利于定律求文本相似度python代码
时间: 2024-05-02 16:14:30 浏览: 124
利用定律是一种常用的文本相似度计算方法,可以通过计算两个文本之间的余弦相似度来衡量它们的相似程度。以下是一个利用定律求文本相似度的Python代码示例:
```python
import math
from collections import Counter
def cosine_similarity(text1, text2):
# 将文本转换为词频向量
vector1 = Counter(text1.split())
vector2 = Counter(text2.split())
# 计算余弦相似度的分子部分
numerator = sum(vector1[key] * vector2[key] for key in vector1 if key in vector2)
# 计算余弦相似度的分母部分
denominator1 = math.sqrt(sum(vector1[key] ** 2 for key in vector1))
denominator2 = math.sqrt(sum(vector2[key] ** 2 for key in vector2))
denominator = denominator1 * denominator2
# 计算余弦相似度
similarity = numerator / denominator if denominator != 0 else 0
return similarity
# 示例用法
text1 = "这是一个示例文本"
text2 = "这是另一个示例文本"
similarity = cosine_similarity(text1, text2)
print("文本相似度:", similarity)
```
这段代码中,我们首先将两个文本转换为词频向量,然后计算向量之间的余弦相似度。最后输出文本的相似度值。
阅读全文