新闻文本分类python源码
时间: 2023-08-01 13:14:28 浏览: 119
python机器学习新闻文章文本分类
5星 · 资源好评率100%
以下是一个简单的新闻文本分类的Python源码示例:
```python
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
# 读取数据
data = pd.read_csv('news_data.csv', encoding='utf-8')
# 划分训练集和测试集
train_data = data.sample(frac=0.8, random_state=1)
test_data = data.drop(train_data.index)
# 特征提取
vectorizer = CountVectorizer()
train_features = vectorizer.fit_transform(train_data['content'])
test_features = vectorizer.transform(test_data['content'])
# 模型训练
clf = MultinomialNB()
clf.fit(train_features, train_data['label'])
# 预测
predicted_labels = clf.predict(test_features)
# 计算准确率
accuracy = np.mean(predicted_labels == test_data['label'])
print('Accuracy:', accuracy)
```
这段代码使用朴素贝叶斯算法进行分类,使用CountVectorizer进行文本特征提取。数据集需要自己准备,可以从网上下载或者使用自己的数据集。
阅读全文