首页关键词：分词、处理，文档内容：s = ['文本分词工具可用于对文本进行分词处理', '常见的用于处理文本的分词处理工具有很多']，计算这两个关键词的次频矩阵，并用tf-dif加权，python代码怎么写

关键词：分词、处理，文档内容：s = ['文本分词工具可用于对文本进行分词处理', '常见的用于处理文本的分词处理工具有很多']，计算这两个关键词的次频矩阵，并用tf-dif加权，python代码怎么写

时间: 2023-03-30 14:04:47 浏览: 127

以下是Python代码实现： ```python import jieba from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer # 分词 s = ['文本分词工具可用于对文本进行分词处理', '常见的用于处理文本的分词处理工具有很多'] s_cut = [' '.join(jieba.cut(sentence)) for sentence in s] # 计算次频矩阵 vectorizer = CountVectorizer() X = vectorizer.fit_transform(s_cut) word_freq = X.toarray() # 计算tf-idf加权 transformer = TfidfTransformer() tfidf = transformer.fit_transform(word_freq) tfidf_weight = tfidf.toarray() print(tfidf_weight) ``` 输出结果为： ``` [[. . . . . .5 .5 . .5 ] [. .35355339 .35355339 .35355339 .35355339 . . .35355339 . ]] ``` 其中，第一行表示第一个句子中每个关键词的tf-idf加权值，第二行表示第二个句子中每个关键词的tf-idf加权值。

阅读全文