朴素贝叶斯python
时间: 2023-07-23 10:14:46 浏览: 73
朴素贝叶斯是一种基于概率统计的分类算法,常用于文本分类、垃圾邮件过滤等领域。在Python中,我们可以使用scikit-learn库中的朴素贝叶斯分类器实现分类。
首先,需要准备数据集。例如,我们有一个包含电子邮件及其标签(是否为垃圾邮件)的数据集,可以使用如下代码读取数据:
```python
import pandas as pd
# 读取数据集
data = pd.read_csv('spam.csv', encoding='latin-1')
data = data[['v1', 'v2']]
data = data.rename(columns={'v1':'label', 'v2':'text'})
```
接着,需要将文本数据转换为数值特征。这里可以使用TF-IDF(词频-逆文档频率)向量化方法,将文本转换为向量。对于TF-IDF的详细介绍可以参考这篇文章:[TF-IDF详解](https://www.jianshu.com/p/df21a90aacc7)。在Python中,可以使用scikit-learn库中的TfidfVectorizer类实现向量化。
```python
from sklearn.feature_extraction.text import TfidfVectorizer
# 将文本转换为向量
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(data['text'])
# 获取标签
y = data['label']
```
数据准备完成后,可以开始训练模型。这里使用scikit-learn库中的MultinomialNB类实现朴素贝叶斯分类器。MultinomialNB适用于多分类问题,如果是二分类问题,可以使用BernoulliNB类。
```python
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 训练模型
clf = MultinomialNB()
clf.fit(X_train, y_train)
```
模型训练完成后,可以使用测试集评估模型的性能。这里使用准确率(accuracy)作为评估指标。
```python
from sklearn.metrics import accuracy_score
# 预测测试集
y_pred = clf.predict(X_test)
# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)
```
完整代码示例:
```python
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# 读取数据集
data = pd.read_csv('spam.csv', encoding='latin-1')
data = data[['v1', 'v2']]
data = data.rename(columns={'v1':'label', 'v2':'text'})
# 将文本转换为向量
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(data['text'])
# 获取标签
y = data['label']
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 训练模型
clf = MultinomialNB()
clf.fit(X_train, y_train)
# 预测测试集
y_pred = clf.predict(X_test)
# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)
```
阅读全文