写一个tf-idf的python
时间: 2023-05-22 09:02:31 浏览: 125
基于python 编写的 基于tfidf的关键字提取算法。
TF-IDF是一种用于文本信息检索的算法,它可以用于计算一个词在文档中的重要性。以下是一个Python中实现TF-IDF算法的例子:
``` python
import math
def tf(word, document):
return document.count(word) / len(document)
def idf(word, documents):
n = len([doc for doc in documents if word in doc])
return math.log(len(documents) / (1 + n))
def tf_idf(word, document, documents):
return tf(word, document) * idf(word, documents)
```
其中,tf()函数用于计算一个词在文档中出现的次数除以文档中总词数,idf()函数用于计算一个词在文档集中出现的文档数的倒数的自然对数,tf_idf()函数将tf()和idf()组合起来,计算一个词在一个文档中的重要性。对于文档集,可以将它们作为列表传递给idf()函数。
如果您需要更详细的实现细节,请参考以下链接:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition_of_term_frequency
请注意这是一个简单的例子,实际的实现可能包含更多的细节和优化。
阅读全文