sklearn.datasets的用法
时间: 2023-11-06 12:07:51 浏览: 81
特征工程(sklearn)
sklearn.datasets是scikit-learn提供的数据集接口,包含一些常用的数据集,方便用户进行机器学习的实验和研究。下面是一些常用的用法:
1. 加载数据集:
```python
from sklearn.datasets import load_iris
iris = load_iris()
```
2. 查看数据集的属性:
```python
data = iris.data # 数据
target = iris.target # 标签
feature_names = iris.feature_names # 属性名
target_names = iris.target_names # 标签名
```
3. 划分数据集:
```python
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.3, random_state=42)
```
4. 生成随机数据集:
```python
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=100, n_features=10, n_classes=2, random_state=42)
```
5. 加载其他数据集:
```python
from sklearn.datasets import load_boston, load_digits, fetch_20newsgroups
boston = load_boston() # 波士顿房价数据集
digits = load_digits() # 手写数字数据集
newsgroups = fetch_20newsgroups() # 新闻分类数据集
```
总之,sklearn.datasets提供了很多方便的数据集接口,可以帮助我们快速进行机器学习实验和研究。
阅读全文