scikit-learn如何读取数据集
时间: 2024-09-08 20:00:26 浏览: 79
scikit-learn是一个广泛使用的Python机器学习库,它提供了许多实用的功能,包括数据预处理、模型选择和评估等。读取数据集通常是数据分析的第一步。在scikit-learn中,你可以通过以下几种常见的方式加载数据:
1. **内置数据**:scikit-learn提供了一些内置的数据集,可以直接通过`sklearn.datasets`模块获取,如鸢尾花(Iris)数据集、波士顿房价数据集等。例如:
```python
from sklearn.datasets import load_iris
iris = load_iris()
```
2. **CSV文件**:可以使用`pandas`库先加载CSV文件,然后转换成适合scikit-learn的数据格式,如DataFrame:
```python
import pandas as pd
df = pd.read_csv('data.csv')
X = df.drop('target', axis=1) # 特征
y = df['target'] # 目标变量
```
3. **其他文件格式**:如果数据存储在其他格式(如Excel、ARFF、JSON等),可以先使用对应的库(如`pandas`、`numpy.savetxt`或第三方库`joblib`)将数据加载到内存。
4. **自定义数据加载**:如果你的数据存储在一个定制的数据结构或其他地方,需要编写函数来读取并转换数据。
记住在使用完数据后,通常会将其拆分为训练集和测试集:
```python
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
阅读全文