使用【python】写【文本相似度分析】的代码茶叶电子商务网站茶叶电子商务网站
时间: 2024-10-08 18:15:37 浏览: 29
在Python中,可以使用NLTK(Natural Language Toolkit)库结合TF-IDF(Term Frequency-Inverse Document Frequency)或者Word2Vec、BERT等模型来进行文本相似度分析。这里以TF-IDF为例,假设我们有两个字符串表示商品描述:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# 假设商品描述存储在一个列表中
product_descriptions = ['优质铁观音', '西湖龙井新茶', '安吉白茶']
# 创建TfidfVectorizer实例并转换成向量
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(product_descriptions)
# 计算两个商品描述之间的相似度
def calculate_similarity(description1, description2):
tfidf_matrix_1 = vectorizer.transform([description1])
tfidf_matrix_2 = vectorizer.transform([description2])
similarity_score = cosine_similarity(tfidf_matrix_1, tfidf_matrix_2)
return similarity_score[0][0]
# 示例使用
similarity = calculate_similarity('铁观音', '铁观音')
print(f"两个描述的相似度为: {similarity}")
阅读全文