基于支持向量机算法的文本分类python代码
时间: 2023-09-12 07:06:02 浏览: 108
以下是基于支持向量机算法的文本分类Python代码的一个示例:
```python
# 导入必要的库
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
# 读取数据集
data = pd.read_csv("data.csv")
# 划分训练集和测试集
train_data = data.sample(frac=0.8, random_state=1)
test_data = data.drop(train_data.index)
# 提取特征
vectorizer = TfidfVectorizer()
train_features = vectorizer.fit_transform(train_data["text"])
test_features = vectorizer.transform(test_data["text"])
# 训练模型
clf = SVC(kernel="linear")
clf.fit(train_features, train_data["label"])
# 预测测试集
test_pred = clf.predict(test_features)
# 计算准确率
acc = accuracy_score(test_data["label"], test_pred)
print("Accuracy:", acc)
```
在此示例中,我们假设数据集已经存储在名为“data.csv”的文件中,其中包含文本和相应的标签。我们使用“sample”方法将数据集分为80%的训练集和20%的测试集。然后,我们使用“TfidfVectorizer”提取文本的特征,并使用这些特征训练了一个支持向量机分类器。最后,我们使用“accuracy_score”方法计算测试集的准确率。
阅读全文