sklearn加载数据
时间: 2024-05-16 08:10:01 浏览: 18
scikit-learn(sklearn)是一个用于机器学习的Python库,它提供了许多用于数据预处理、特征提取、监督学习、无监督学习等方面的工具。在使用sklearn进行机器学习任务时,我们需要加载数据集并将其转换为可供模型训练和测试的格式。下面是一些常见的sklearn加载数据集的方法:
1. 通过sklearn.datasets加载数据集
sklearn.datasets提供了一些常用的数据集,可以直接使用load_函数加载。例如,要加载iris数据集,可以使用以下代码:
```
from sklearn.datasets import load_iris
iris = load_iris()
X, y = iris.data, iris.target
```
2. 通过pandas加载数据集
sklearn支持pandas数据结构,可以使用pandas读取csv、excel等格式的数据。例如,要加载csv格式的数据集,可以使用以下代码:
```
import pandas as pd
data = pd.read_csv('data.csv')
X, y = data.drop('label', axis=1), data['label']
```
3. 通过numpy加载数据集
sklearn还支持numpy数组格式的数据,可以使用numpy.load()函数加载.npy格式的数据。例如,要加载npy格式的数据集,可以使用以下代码:
```
import numpy as np
data = np.load('data.npy')
X, y = data[:,:-1], data[:,-1]
```