python tf-idf实现中文文本特征提取
时间: 2023-08-07 22:05:56 浏览: 91
面向中文文本的特征值提取
4星 · 用户满意度95%
以下是使用Python的sklearn库中的TfidfVectorizer类实现中文文本特征提取的示例代码:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
# 定义一些中文文本
text1 = "这是一篇关于自然语言处理的文章。"
text2 = "自然语言处理是人工智能领域的一个重要分支。"
text3 = "机器学习是实现自然语言处理的重要手段之一。"
# 将文本放入列表中
corpus = [text1, text2, text3]
# 创建TfidfVectorizer实例,设置分词器为jieba分词器
vectorizer = TfidfVectorizer(tokenizer=jieba.cut)
# 对文本进行特征提取
X = vectorizer.fit_transform(corpus)
# 输出特征向量
print(X.toarray())
```
在以上代码中,我们使用了jieba分词器对文本进行分词,并使用TfidfVectorizer类对文本进行特征提取。最终输出了每个文本的特征向量。
阅读全文