编写一个Python程序实现垃圾邮件分类,先训练出1个性能良好的模型能区分正常邮件和垃圾邮件,然后读取自己准备的电子邮件文本,测试模型分类准确性
时间: 2024-10-27 08:09:58 浏览: 45
在Python中实现垃圾邮件分类,通常我们会使用机器学习算法,比如朴素贝叶斯、支持向量机(SVM)或深度学习的神经网络等。这里以朴素贝叶斯分类为例,因为它简单易懂且适合文本分类任务。
首先,我们需要预处理数据,包括加载邮件文本数据,提取特征(如词频),以及将邮件标记为垃圾邮件或非垃圾邮件。
1. **数据预处理**:
- 加载数据集,例如使用`pandas`库的`read_csv`函数从CSV文件读取,假设数据包含两列:'Email'(邮件正文)和'Spam'(标签,0表示非垃圾,1表示垃圾)。
```python
import pandas as pd
data = pd.read_csv('spam_dataset.csv')
X = data['Email']
y = data['Spam']
```
2. **特征提取**:
使用`CountVectorizer`或`TfidfVectorizer`从文本转换为数值特征矩阵。
```python
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
X_transformed = vectorizer.fit_transform(X)
```
3. **划分训练集和测试集**:
```python
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_transformed, y, test_size=0.2, random_state=42)
```
4. **模型训练**:
使用朴素贝叶斯分类器训练模型。
```python
from sklearn.naive_bayes import MultinomialNB
model = MultinomialNB()
model.fit(X_train, y_train)
```
5. **模型评估**:
预测测试集,并计算准确率。
```python
predictions = model.predict(X_test)
accuracy = (predictions == y_test).mean() * 100
print(f"模型测试准确性:{accuracy:.2f}%")
```
如果你已经有了一组邮件文本想要测试,你可以按照上述过程进行预处理和预测,但是要注意,需要首先对新的邮件进行同样的特征提取步骤,然后再进行预测。
阅读全文