tf idf python 中文
时间: 2023-09-02 07:03:13 浏览: 95
TF-IDF是一种用于文本挖掘和信息检索的常用技术。TF表示词频,即某个词在文档中出现的次数。IDF表示逆文档频率,它是对一个词的常见程度的度量,计算公式为 log(文档总数/包含该词的文档数)。
在Python中,我们可以使用第三方库如sklearn来计算TF-IDF。首先,我们需要导入相关模块:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
```
然后,我们可以定义一个语料库,即一组文档的集合。假设我们有以下两个文档:
```python
doc1 = "TF-IDF是一种常用的文本挖掘技术"
doc2 = "TF-IDF可以用于信息检索和文本分类"
corpus = [doc1, doc2]
```
接下来,我们可以使用TfidfVectorizer来计算TF-IDF值:
```python
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
```
最后,我们可以查看每个词对应的TF-IDF值:
```python
idf = vectorizer.idf_
words = vectorizer.get_feature_names_out()
for i in range(len(words)):
print("词 '", words[i], "' 的TF-IDF值为:", idf[i])
```
以上就是使用Python来计算TF-IDF的基本方法。TF-IDF可以用于文本分类、文本相似度计算等任务,通过对文本进行向量化,使得文本可以在机器学习算法中进行处理和分析。
阅读全文