请基于TF-IDF模型使用python实现文本的相似度推荐
时间: 2023-06-03 11:06:49 浏览: 185
Python利用TF-IDF等模型构建的问答系统源码.zip
好的,基于TF-IDF模型使用Python实现文本的相似度推荐的代码如下:
```
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# 读取文本数据
data = pd.read_csv('data.csv')
# 对文本数据进行TF-IDF向量化
vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(data['text'])
# 计算文本相似度矩阵
similarity_matrix = cosine_similarity(tfidf, tfidf)
# 获取与第一篇文本相似度最高的文本
most_similar_index = similarity_matrix[0].argsort()[-2:-1][::-1]
most_similar_text = data.loc[most_similar_index, 'text'].values[0]
print(most_similar_text)
```
其中,data.csv是包含文本数据的CSV文件,其中一列名为text。通过调用sklearn库中的TfidfVectorizer类实现TF-IDF向量化,然后通过计算余弦相似度得到文本相似度矩阵。最后根据相似度矩阵获取与第一篇文本相似度最高的文本。
阅读全文