Python实现小型文本分类系统代码
时间: 2024-09-22 10:08:01 浏览: 50
在Python中,我们可以使用一些流行的机器学习库如scikit-learn来创建一个简单的文本分类系统。这里我会展示一个基于朴素贝叶斯算法的基本例子,它常用于文本分类任务:
```python
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
import pandas as pd
# 假设我们有一个CSV文件,其中包含两类文本数据:'text'列是文本内容,'label'列是类别标签
data = pd.read_csv('your_dataset.csv')
# 准备训练集和测试集
X_train = data['text'][:80] # 前80%的数据作为训练集
y_train = data['label'][:80]
X_test = data['text'][80:] # 后20%的数据作为测试集
y_test = data['label'][80:]
# 创建一个管道,包括特征提取(CountVectorizer)和模型(MultinomialNB)
text_clf = Pipeline([
('vectorizer', CountVectorizer()), # 将文本转化为词频向量
('classifier', MultinomialNB()) # 使用朴素贝叶斯分类器
])
# 训练模型
text_clf.fit(X_train, y_train)
# 预测并评估性能
predictions = text_clf.predict(X_test)
accuracy = text_clf.score(X_test, y_test)
print(f"Accuracy on test set: {accuracy * 100:.2f}%")
#
阅读全文