使用【python】写【文本相似度分析】的代码
时间: 2024-11-27 22:21:22 浏览: 46
在Python中,我们可以使用多种库来实现文本相似度分析,其中最常用的是`NLTK`、`spaCy`、`Scikit-learn`以及`Gensim`等。这里以`scikit-learn`库为例,它提供了TfidfVectorizer和cosine_similarity函数来进行简单的文本相似度计算:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# 假设我们有两组文本数据
texts = ['这是一个示例文本1', '这是另一个示例文本', '这是第三个文本']
text_pairs = [(texts[0], texts[1]), (texts[0], texts[2])]
# 创建词袋模型并转换为TF-IDF向量
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(texts)
# 计算相似度矩阵
similarity_matrix = cosine_similarity(tfidf_matrix)
# 打印每一对文本的相似度
for i in range(len(text_pairs)):
pair = text_pairs[i]
similarity = similarity_matrix[i][i] # 对角线元素是自相似度,非对角线元素是相互之间的相似度
print(f"Pair {pair}: Similarity = {similarity:.2f}")
阅读全文