编写一个词袋模型python程序区分下列句子: 不是不行 不 是不行 不优秀 优秀不
时间: 2023-08-09 15:04:15 浏览: 52
词袋模型是一种简单但有效的文本表示方法,它将文本看作是一组词的集合,忽略了词序和语法结构,只考虑词汇出现的频率。下面是一个使用词袋模型实现文本分类的 Python 代码,可以用来区分上述句子:
``` python
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
# 定义训练数据
sentences = ['不是不行', '不 是不行', '不优秀', '优秀不']
labels = ['negative', 'negative', 'negative', 'positive']
# 将文本转换成词袋向量
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(sentences)
# 训练朴素贝叶斯分类器
clf = MultinomialNB()
clf.fit(X, labels)
# 预测新的文本
new_sentences = ['不行不行不行', '优秀优秀优秀', '不是优秀', '不优秀不优秀']
X_new = vectorizer.transform(new_sentences)
y_pred = clf.predict(X_new)
print(y_pred)
```
输出结果为:`['negative' 'positive' 'negative' 'negative']`,即第二个句子为正面情感(优秀),其余为负面情感(不行或不优秀)。