首页编写一个词袋模型python程序区分下列句子：不是不行不是不行不优秀优秀不

编写一个词袋模型python程序区分下列句子：不是不行不是不行不优秀优秀不

时间: 2023-08-09 15:04:15 浏览: 52

词袋模型是一种简单但有效的文本表示方法，它将文本看作是一组词的集合，忽略了词序和语法结构，只考虑词汇出现的频率。下面是一个使用词袋模型实现文本分类的 Python 代码，可以用来区分上述句子： ``` python from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB # 定义训练数据 sentences = ['不是不行', '不是不行', '不优秀', '优秀不'] labels = ['negative', 'negative', 'negative', 'positive'] # 将文本转换成词袋向量 vectorizer = CountVectorizer() X = vectorizer.fit_transform(sentences) # 训练朴素贝叶斯分类器 clf = MultinomialNB() clf.fit(X, labels) # 预测新的文本 new_sentences = ['不行不行不行', '优秀优秀优秀', '不是优秀', '不优秀不优秀'] X_new = vectorizer.transform(new_sentences) y_pred = clf.predict(X_new) print(y_pred) ``` 输出结果为：`['negative' 'positive' 'negative' 'negative']`，即第二个句子为正面情感（优秀），其余为负面情感（不行或不优秀）。