python中文文本分类代码
时间: 2023-10-07 21:12:39 浏览: 97
python实现嵌入Word2vec词向量的CNN中文文本分类.zip
以下是一个简单的 Python 中文文本分类代码示例:
```python
import jieba
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
# 读取训练数据
train_texts = []
train_labels = []
with open('train.txt', 'r', encoding='utf-8') as f:
for line in f:
label, text = line.strip().split('\t')
train_texts.append(text)
train_labels.append(label)
# 分词
train_tokens = []
for text in train_texts:
train_tokens.append(list(jieba.cut(text)))
# 把分词结果组合成字符串
train_strs = []
for tokens in train_tokens:
train_strs.append(' '.join(tokens))
# 把文本转换成向量
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(train_strs)
# 训练分类器
clf = MultinomialNB()
clf.fit(X_train_counts, train_labels)
# 使用分类器预测新文本的分类
new_text = '这是一篇关于Python的文章'
new_tokens = list(jieba.cut(new_text))
new_str = ' '.join(new_tokens)
X_new_counts = count_vect.transform([new_str])
predicted = clf.predict(X_new_counts)
print(predicted)
```
请注意,此代码没有考虑到停用词、特征选择等问题,仅用于演示目的。在实际应用中,需要根据具体需求进行调整和优化。
阅读全文