sklearn数据集怎么使用
时间: 2024-09-21 12:02:30 浏览: 29
SKlearn数据集.zip
在sklearn库中,数据集通常分为训练数据集、测试数据集和验证数据集(有时还包括额外的数据用于特征工程)。以下是使用sklearn加载和处理数据的基本步骤:
1. **导入所需库**:
```python
from sklearn import datasets
```
2. **加载内置数据集**:
```python
iris = datasets.load_iris() # 花卉数据集
boston = datasets.load_boston() # 房价数据集
wine = datasets.load_wine() # 红酒品质数据集
```
或者,对于分类任务,可以使用`fetch_openml`函数获取开放ML数据集。
3. **查看数据概述**:
```python
print(iris.DESCR) # 查看描述信息
```
4. **加载数据和标签**:
```python
X_train, y_train = iris.data, iris.target
X_test, y_test = iris.test_data, iris.test_target # 对于预拆分的数据集
```
5. **数据预处理**(如缩放、编码等),如果需要的话:
```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
```
6. **创建模型**:
```python
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
```
7. **训练模型**:
```python
model.fit(X_train_scaled, y_train)
```
8. **评估模型**:
```python
score = model.score(X_test_scaled, y_test)
```
9. **预测新数据**:
```python
predictions = model.predict(X_new)
```
阅读全文