TF-IDF算法Python代码
时间: 2024-11-07 08:10:58 浏览: 27
python TF-IDF算法实现文本关键词提取
TF-IDF (Term Frequency-Inverse Document Frequency) 算法是一种常用于信息检索和文本挖掘中的统计分析方法,它通过计算词汇的重要性来评估文档的相关性。以下是简单的TF-IDF算法在Python中的实现步骤,通常我们会使用sklearn库:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
# 假设我们有以下数据
data = {
'text': ['这是一篇关于机器学习的文章', '这是另一篇讨论深度学习的文章']
}
# 创建DataFrame
df = pd.DataFrame(data)
# 使用TfidfVectorizer
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(df['text'])
# 输出每个词及其对应的TF-IDF值
for term, tf_idf in zip(vectorizer.get_feature_names_out(), tfidf_matrix.toarray()[0]):
print(f'{term}: {tf_idf}')
# 获取整个文档集合中某个词的TF-IDF值
doc_id = 0
word_to_search = '机器学习'
print(f'TF-IDF value for "{word_to_search}" in document {doc_id}:', tfidf_matrix[doc_id, vectorizer.vocabulary_[word_to_search]])
阅读全文