首页中文文本分类Python代码

中文文本分类Python代码

时间: 2023-11-05 09:07:55 浏览: 93

很高兴可以帮您回答问题！以下是一个简单的中文文本分类Python代码示例： ```python import jieba import pandas as pd from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB # 读取数据集 data = pd.read_csv('data.csv', encoding='utf-8') X = data['text'] y = data['label'] # 对文本进行分词处理 def cut_words(text): return ' '.join(jieba.cut(text)) X = X.apply(cut_words) # 构建词袋模型 vectorizer = CountVectorizer() X = vectorizer.fit_transform(X) # 训练模型 clf = MultinomialNB() clf.fit(X, y) # 预测新文本 text = "这是一篇关于科技的文章" text = cut_words(text) text_vec = vectorizer.transform([text]) predict = clf.predict(text_vec) print(predict) ``` 以上代码使用朴素贝叶斯分类器对中文文本进行分类，使用了jieba进行中文分词，使用sklearn提供的CountVectorizer构建词袋模型。同时需要注意使用合适的中文数据集进行训练，这里使用了一个名为data.csv的数据集。

阅读全文