首页jieba+朴素贝叶斯

jieba+朴素贝叶斯

时间: 2024-01-19 10:18:24 浏览: 78

jieba是一个流行的中文分词工具，而朴素贝叶斯是一种常用的机器学习算法。结合jieba和朴素贝叶斯可以实现中文文本分类任务。下面是一个使用jieba和朴素贝叶斯进行中文文本分类的示例： ```python import jieba from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB # 定义文本数据 texts = ['这是一个很好的产品', '这个产品质量很差', '这个产品非常实用'] # 分词 seg_texts = [' '.join(jieba.cut(text)) for text in texts] # 构建词袋模型 vectorizer = CountVectorizer() X = vectorizer.fit_transform(seg_texts) # 定义标签 y = ['好评', '差评', '好评'] # 训练朴素贝叶斯分类器 clf = MultinomialNB() clf.fit(X, y) # 预测新的文本 new_text = '这个产品非常好用' seg_new_text = ' '.join(jieba.cut(new_text)) X_new = vectorizer.transform([seg_new_text]) predicted = clf.predict(X_new) print(predicted) # 输出：['好评'] ``` 在这个示例中，我们首先使用jieba对文本进行分词，然后使用CountVectorizer构建词袋模型，将文本转换为特征向量。接着，我们定义了标签，即每个文本的分类。然后，我们使用MultinomialNB训练了一个朴素贝叶斯分类器，并使用训练好的分类器对新的文本进行预测，得到了预测结果。

阅读全文