jieba+朴素贝叶斯
时间: 2024-01-19 10:18:24 浏览: 78
jieba是一个流行的中文分词工具,而朴素贝叶斯是一种常用的机器学习算法。结合jieba和朴素贝叶斯可以实现中文文本分类任务。下面是一个使用jieba和朴素贝叶斯进行中文文本分类的示例:
```python
import jieba
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
# 定义文本数据
texts = ['这是一个很好的产品', '这个产品质量很差', '这个产品非常实用']
# 分词
seg_texts = [' '.join(jieba.cut(text)) for text in texts]
# 构建词袋模型
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(seg_texts)
# 定义标签
y = ['好评', '差评', '好评']
# 训练朴素贝叶斯分类器
clf = MultinomialNB()
clf.fit(X, y)
# 预测新的文本
new_text = '这个产品非常好用'
seg_new_text = ' '.join(jieba.cut(new_text))
X_new = vectorizer.transform([seg_new_text])
predicted = clf.predict(X_new)
print(predicted) # 输出:['好评']
```
在这个示例中,我们首先使用jieba对文本进行分词,然后使用CountVectorizer构建词袋模型,将文本转换为特征向量。接着,我们定义了标签,即每个文本的分类。然后,我们使用MultinomialNB训练了一个朴素贝叶斯分类器,并使用训练好的分类器对新的文本进行预测,得到了预测结果。
阅读全文