sklearn库方法
时间: 2024-01-08 15:20:46 浏览: 90
sklearn库是一个基于Python的第三方模块,它集成了许多常用的机器学习方法,可以帮助我们完成各种机器学习任务。下面是一些常用的sklearn库方法的介绍:
1. 数据集加载方法:
- `sklearn.datasets.load_*`:加载内置的数据集,如`load_iris()`加载鸢尾花数据集。
- `sklearn.datasets.fetch_*`:从网络上下载并加载数据集,如`fetch_openml()`下载并加载OpenML数据集。
2. 数据预处理方法:
- `sklearn.preprocessing.*`:提供了一系列数据预处理的方法,如`StandardScaler()`用于特征标准化,`MinMaxScaler()`用于特征缩放等。
3. 特征选择方法:
- `sklearn.feature_selection.*`:提供了一些特征选择的方法,如`SelectKBest()`用于选择K个最好的特征,`RFE()`用于递归特征消除等。
4. 模型选择和评估方法:
- `sklearn.model_selection.*`:提供了模型选择和评估的方法,如`train_test_split()`用于划分训练集和测试集,`cross_val_score()`用于交叉验证评估模型性能等。
5. 机器学习算法方法:
- `sklearn.*`:sklearn库中包含了许多机器学习算法的实现,如线性回归(`LinearRegression`)、决策树(`DecisionTreeClassifier`)、支持向量机(`SVC`)等。
6. 模型保存和加载方法:
- `sklearn.externals.joblib.*`:提供了模型的保存和加载方法,如`dump()`用于保存模型,`load()`用于加载模型。
下面是一个示例代码,演示了如何使用sklearn库中的一些方法:
```python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
# 加载鸢尾花数据集
iris = load_iris()
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)
# 创建逻辑回归模型
model = LogisticRegression()
# 在训练集上训练模型
model.fit(X_train, y_train)
# 在测试集上进行预测
y_pred = model.predict(X_test)
# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
```
阅读全文