使用【python】写【文本相似度分析】的代
时间: 2024-09-08 12:04:05 浏览: 70
在Python中,文本相似度分析通常涉及计算两个字符串或段落之间的相似程度,常见的方法有余弦相似度、Jaccard相似系数、编辑距离等。以下是一个简单的例子,使用`NLTK`库和`sklearn`库计算TF-IDF向量并计算余弦相似度:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import nltk
# 定义示例文本
text1 = "这是一段文本"
text2 = "这是另一段相似的文本"
# 分词和预处理(这里仅作演示,实际应用需要更复杂的分词和停用词处理)
nltk.download('punkt')
tokens1 = [word for word in nltk.word_tokenize(text1)]
tokens2 = [word for word in nltk.word_tokenize(text2)]
# 将文本转换为TF-IDF向量
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform([text1, text2])
# 计算相似度
similarity_score = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix)[0][0]
print(f"文本1和文本2的相似度为: {similarity_score}")
阅读全文