使用python代码举例说明文本分类
时间: 2023-01-31 21:33:13 浏览: 99
文本分类是自然语言处理中的一个常见任务,它的目的是将文本划分到若干个预先定义的类别中。
举个例子,假设我们想要将新闻文章分为三个类别:体育、财经、娱乐。我们可以使用下面的代码来实现这个任务:
```
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
# 假设我们已经有了训练数据
# X_train是一个包含了新闻文本的列表
# y_train是一个包含了每篇新闻所属类别的列表
X_train = [
"科比生涯最后一场比赛",
"苹果发布新手机",
"美国大选最后阶段"
]
y_train = [0, 1, 2]
# 利用CountVectorizer将文本转换为特征向量
vectorizer = CountVectorizer()
X_train_vec = vectorizer.fit_transform(X_train)
# 使用MultinomialNB分类器训练模型
clf = MultinomialNB()
clf.fit(X_train_vec, y_train)
# 假设我们想要对一篇新闻进行分类
X_test = ["科比退役感言"]
X_test_vec = vectorizer.transform(X_test)
y_pred = clf.predict(X_test_vec)
# y_pred的值为0,即被分到了体育类别
print(y_pred)
```
在这个例子中,我们使用了`CountVectorizer`和`MultinomialNB`来进行文本分类。其中,`CountVectorizer`是一个文本转换器,能够将
阅读全文