中文文本向量化代码构建TFIDF模型
时间: 2023-09-02 17:14:55 浏览: 85
以下是Python中使用jieba和scikit-learn构建中文TF-IDF模型的代码示例:
```python
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
# 创建TF-IDF向量化器
vectorizer = TfidfVectorizer()
# 输入文本列表
corpus = [
"这是第一个文档。",
"这个文档是第二个文档。",
"这是第三个文档。",
"这是第一个文档吗?",
]
# 对文本进行分词处理
corpus = [" ".join(jieba.cut(text)) for text in corpus]
# 将文本列表转换为TF-IDF特征矩阵
X = vectorizer.fit_transform(corpus)
# 打印特征矩阵
print(X.toarray())
# 打印特征名列表
print(vectorizer.get_feature_names())
```
在上述示例中,我们首先导入jieba和TfidfVectorizer类,然后创建一个向量化器对象。接着,我们定义一个中文文本列表corpus,该列表包含4个中文文本。然后,我们使用jieba对文本进行分词处理,并将分词后的文本列表传递给向量化器的fit_transform()方法进行向量化。最后,我们打印特征矩阵和特征名列表。
请注意,在这个示例中,我们使用jieba对中文文本进行分词处理。如果您想要使用其他中文分词工具,您需要将分词后的文本列表传递给向量化器的fit_transform()方法进行向量化。
阅读全文