o使用【python】写【文本相似度分析】的代码
时间: 2024-09-22 10:07:36 浏览: 48
基于python的文本相似度计算系统设计与实现.docx
5星 · 资源好评率100%
在Python中,可以使用自然语言处理库NLTK(Natural Language Toolkit)和TfidfVectorizer或Word2Vec等技术来计算文本之间的相似度。这里是一个基本的例子,我们将使用Tf-IDF(Term Frequency-Inverse Document Frequency)方法:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# 假设我们有两段文本
texts = ["这是第一段文本", "这是第二段非常相似的文本"]
# 创建TF-IDF向量izer
vectorizer = TfidfVectorizer()
# 将文本转换为TF-IDF矩阵
tfidf_matrix = vectorizer.fit_transform(texts)
# 计算余弦相似度
similarity_matrix = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix)
# 获取第一段文本与其他文本的相似度
similarity_score = similarity_matrix[0][1]
print(f"第一段文本与第二段文本的相似度为: {similarity_score}")
```
阅读全文