良性恶性肿瘤数据,直接从sklearn导入如下 from sklearn.datasets import load_breast_cancer cancer = load_breast_cancer() 划分测试与训练集,分别用logistic回归与SVM分类器完成分类任务 建立评价指标,记录参数调整过程和结果,评价两种分类器对该任务的完成程度
时间: 2023-12-30 21:05:51 浏览: 74
使用sklearn的cross_val_score进行交叉验证实例
好的,我会记录下来并回答您的问题。
首先,划分测试与训练集可以使用sklearn中的train_test_split函数进行划分,如下所示:
```
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=0.3, random_state=42)
```
其中,cancer.data是特征数据,cancer.target是标签数据,test_size表示测试集的比例,random_state表示随机数种子,用于保证每次划分的结果一致。
接下来,我们可以分别使用Logistic回归和SVM分类器对数据进行分类,代码如下所示:
Logistic回归分类器:
```
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
lr.fit(X_train, y_train)
lr_score = lr.score(X_test, y_test)
print("Logistic回归分类器的准确率为:", lr_score)
```
SVM分类器:
```
from sklearn.svm import SVC
svm = SVC()
svm.fit(X_train, y_train)
svm_score = svm.score(X_test, y_test)
print("SVM分类器的准确率为:", svm_score)
```
其中,lr.fit()和svm.fit()分别用于训练模型,lr.score()和svm.score()分别用于评估模型的准确率。
接下来,我们需要建立评价指标来评价模型的表现。在二分类问题中,常用的评价指标有准确率、精确率、召回率和F1-score等。
准确率是指分类器正确分类的样本数与总样本数的比例,可以使用sklearn中的accuracy_score函数来计算。
精确率是指分类器正确分类为正样本的样本数与分类器预测为正样本的样本数的比例,可以使用sklearn中的precision_score函数来计算。
召回率是指分类器正确分类为正样本的样本数与真实正样本的样本数的比例,可以使用sklearn中的recall_score函数来计算。
F1-score是精确率和召回率的调和平均数,可以使用sklearn中的f1_score函数来计算。
代码如下所示:
```
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
lr_pred = lr.predict(X_test)
svm_pred = svm.predict(X_test)
lr_accuracy = accuracy_score(y_test, lr_pred)
svm_accuracy = accuracy_score(y_test, svm_pred)
lr_precision = precision_score(y_test, lr_pred)
svm_precision = precision_score(y_test, svm_pred)
lr_recall = recall_score(y_test, lr_pred)
svm_recall = recall_score(y_test, svm_pred)
lr_f1_score = f1_score(y_test, lr_pred)
svm_f1_score = f1_score(y_test, svm_pred)
print("Logistic回归分类器的准确率为:", lr_accuracy)
print("SVM分类器的准确率为:", svm_accuracy)
print("Logistic回归分类器的精确率为:", lr_precision)
print("SVM分类器的精确率为:", svm_precision)
print("Logistic回归分类器的召回率为:", lr_recall)
print("SVM分类器的召回率为:", svm_recall)
print("Logistic回归分类器的F1-score为:", lr_f1_score)
print("SVM分类器的F1-score为:", svm_f1_score)
```
最后,我们需要记录参数调整过程和结果。在Logistic回归和SVM分类器中,常用的调参方法有网格搜索和随机搜索。
网格搜索是指对于每个参数的所有可能取值进行搜索,找到最优的参数组合。可以使用sklearn中的GridSearchCV函数进行网格搜索。
随机搜索是指对于每个参数的一定范围内进行随机搜索,找到最优的参数组合。可以使用sklearn中的RandomizedSearchCV函数进行随机搜索。
这里以SVM分类器为例,进行参数调整。代码如下所示:
```
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from scipy.stats import uniform
param_grid = {'C': [1, 10, 100, 1000],
'gamma': [0.1, 0.01, 0.001, 0.0001],
'kernel': ['linear', 'rbf', 'poly', 'sigmoid']}
param_dist = {'C': uniform(loc=0, scale=4),
'gamma': uniform(loc=0, scale=0.1),
'kernel': ['linear', 'rbf', 'poly', 'sigmoid']}
grid_search = GridSearchCV(SVC(), param_grid=param_grid)
random_search = RandomizedSearchCV(SVC(), param_distributions=param_dist, n_iter=10)
grid_search.fit(X_train, y_train)
random_search.fit(X_train, y_train)
print("网格搜索SVM分类器的最优参数为:", grid_search.best_params_)
print("网格搜索SVM分类器的最优得分为:", grid_search.best_score_)
print("随机搜索SVM分类器的最优参数为:", random_search.best_params_)
print("随机搜索SVM分类器的最优得分为:", random_search.best_score_)
```
其中,param_grid和param_dist分别表示网格搜索和随机搜索的参数空间,n_iter表示随机搜索的迭代次数。
最终,我们可以评价两种分类器对该任务的完成程度,评价指标包括准确率、精确率、召回率和F1-score等。可以根据实际需求选择不同的评价指标来评估两种分类器的表现。
阅读全文