TF-IDF 特征向量
时间: 2024-07-08 18:00:56 浏览: 221
spark mllib特征使用案例讲解
TF-IDF (Term Frequency-Inverse Document Frequency) 是一种常用的文本特征提取方法,在信息检索、文本挖掘和自然语言处理中广泛应用。它用于衡量一个词(或术语)在文档中的重要性,特别是在多个文档集合中的相对重要性。
TF (Term Frequency) 表示一个词在文档中的出现频率,即该词的次数除以文档总词数。这可以反映这个词在文档中的直接相关度。
IDF (Inverse Document Frequency) 则是通过计算文档总数除以包含某个词的文档数的对数,来减少常见词(在所有文档中频繁出现的词)的重要性。IDF值越大,表示这个词越具有区分性,因为罕见的词在更多的文档中都不常见。
结合起来,TF-IDF 就是将每个词的 TF 值乘以其对应的 IDF 值,这样就得到了一个词语在文档中的加权得分,反映了其在整个文档集中的独特性和重要性。生成的 TF-IDF 向量可以用作机器学习算法中的输入特征,帮助模型理解文本内容并进行分类、聚类等任务。
阅读全文