jieba分词里tfid
时间: 2023-11-10 11:05:21 浏览: 125
jieba 分词
引用[1]:TF-IDF在实际中主要是将二者相乘,也即TF * IDF,TF为词频(Term Frequency),表示词t在文档d中出现的频率;IDF为反文档频率(Inverse Document Frequency),表示语料库中包含词t的文档的数目的倒数。[1]引用[2]:如果传入了词性限制集合,首先调用词性标注接口,对输入句子进行词性标注,得到分词及对应的词性;依次遍历分词结果,如果该词的词性不在词性限制集合中,则跳过;如果词的长度小于2,或者词为停用词,则跳过;最后将满足条件的词添加到词频词典中,出现的次数加1;然后遍历词频词典,根据idf词典得到每个词的idf值,并除以词频词典中的次数总和,得到每个词的tf * idf值;如果设置了权重标志位,则根据tf-idf值对词频词典中的词进行降序排序,然后输出topK个词作为关键词。[2]引用[3]:jieba分词库中也提供了词性标注功能,可以标注句子分词后每个词的词性。可以使用jieba.posseg模块中的pseg.cut方法进行词性标注。例如,可以使用以下代码进行词性标注:import jieba.posseg as pseg st = pseg.cut("我爱自然语言处理") for word,flag in st: print(word,flag)[3]
综上所述,jieba分词库中的tfidf功能可以通过计算词频和逆文档频率的乘积得到。如果需要对分词结果进行词性限制和筛选,可以使用词性标注接口进行处理。同时,jieba分词库也提供了词性标注的功能,可以标注分词后每个词的词性。
阅读全文