什么是逆文本频率指数
时间: 2024-08-05 18:01:39 浏览: 93
逆文本频率指数(Inverse Document Frequency, IDF)是一种信息检索、文本挖掘和自然语言处理中用于评估词语重要性的统计量。它是通过计算词频(Term Frequency, TF)的基础上再除以文档总数或者包含该词的文档数的对数,来衡量一个词对于整个文集的稀有程度。IDF越高,表示这个词在文本集合中越不常见,因此它作为一个特征在文本分类、关键词提取等任务中的权重就越大,有助于区分重要主题和背景噪声。
简单来说,如果一个词在大多数文档中都频繁出现,那么它的IDF值就会低;相反,如果这个词只出现在少数文档中,其IDF值就会高,表明这个词对于区分文档内容更具区分度。
阅读全文