中文文本分类Python代码
时间: 2023-11-05 09:07:55 浏览: 93
很高兴可以帮您回答问题!以下是一个简单的中文文本分类Python代码示例:
```python
import jieba
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
# 读取数据集
data = pd.read_csv('data.csv', encoding='utf-8')
X = data['text']
y = data['label']
# 对文本进行分词处理
def cut_words(text):
return ' '.join(jieba.cut(text))
X = X.apply(cut_words)
# 构建词袋模型
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(X)
# 训练模型
clf = MultinomialNB()
clf.fit(X, y)
# 预测新文本
text = "这是一篇关于科技的文章"
text = cut_words(text)
text_vec = vectorizer.transform([text])
predict = clf.predict(text_vec)
print(predict)
```
以上代码使用朴素贝叶斯分类器对中文文本进行分类,使用了jieba进行中文分词,使用sklearn提供的CountVectorizer构建词袋模型。同时需要注意使用合适的中文数据集进行训练,这里使用了一个名为data.csv的数据集。
阅读全文