朴素贝叶斯分类预测爬取例子
时间: 2023-07-22 17:42:10 浏览: 95
这里给出一个简单的朴素贝叶斯分类预测爬取例子,该例子使用Python语言和scikit-learn库实现。
假设我们要对一些电影评论进行分类,将它们分为正面和负面两类。首先,我们需要爬取一些电影评论,并手动标注它们的类别。这里假设我们已经爬取了100条评论,其中50条为正面评论,50条为负面评论,并将它们放在一个名为data.csv的文件中,如下所示:
```
text,label
"This movie is great!",positive
"I didn't like this movie.",negative
...
```
接下来,我们可以使用pandas库读取该文件,并将数据分为训练集和测试集:
```python
import pandas as pd
from sklearn.model_selection import train_test_split
data = pd.read_csv('data.csv')
X_train, X_test, y_train, y_test = train_test_split(data['text'], data['label'], test_size=0.2)
```
接着,我们可以使用CountVectorizer将文本转换成特征向量:
```python
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)
```
然后,我们可以使用MultinomialNB构建朴素贝叶斯分类器,并在训练集上进行训练:
```python
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
clf.fit(X_train_vec, y_train)
```
最后,我们可以在测试集上进行预测,并计算模型的准确率:
```python
y_pred = clf.predict(X_test_vec)
accuracy = (y_pred == y_test).mean()
print('Accuracy:', accuracy)
```
这个例子只是一个简单的演示,实际应用中需要考虑更多的因素,例如特征选择、模型调参等。
阅读全文