使用sklearn的决策树模型判断是否是垃圾邮件代码
时间: 2024-05-14 20:13:29 浏览: 144
利用朴素贝叶斯模型识别垃圾邮件
5星 · 资源好评率100%
可以这样实现:
1. 导入需要的库和数据集;
2. 对数据集进行预处理,如文本向量化等;
3. 划分训练集和测试集;
4. 构建决策树模型并训练;
5. 对测试集进行预测并计算准确率。
代码示例:
```python
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
# 导入数据集
data = pd.read_csv('spam.csv', encoding='latin-1')
# 预处理
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(data['text'])
y = data['label']
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
# 构建并训练决策树模型
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
# 预测并计算准确率
y_pred = clf.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print('准确率:{:.2f}%'.format(acc * 100))
```
当然,以上代码只是示例,具体实现还需要根据实际情况进行调整和优化。
阅读全文