请介绍sklearn中的常用数据集
时间: 2024-01-24 14:17:59 浏览: 90
【sklearn】xclara聚类数据集,python-sklearn,Kmeans聚类练手
scikit-learn (sklearn) 是 Python 中常用的机器学习库之一,它内置了许多常用的数据集,可以用于机器学习的实践和学习。下面是 sklearn 中一些常用的数据集:
1. Iris(鸢尾花)数据集:这是一个经典的多分类问题数据集,包含了 3 类、每类 50 个实例,每个实例包含 4 个特征。
2. Wine(葡萄酒)数据集:这是另一个经典的多分类问题数据集,包含了 3 类葡萄酒的化学分析数据。
3. Breast Cancer Wisconsin(乳腺癌数据)数据集:这是一个二分类问题数据集,包含了乳腺肿瘤的良性和恶性的 569 个样本的特征。
4. Boston Housing(波士顿房价)数据集:这是一个回归问题数据集,包含了 506 个样本,每个样本包含了 13 个特征,预测目标是波士顿地区房屋的中位数价值。
5. MNIST 手写数字数据集:这是一个经典的图像分类问题数据集,包含了 70,000 张 28x28 像素大小的手写数字图像,每个图像都有一个标签,表示它所代表的数字。
6. CIFAR-10 数据集:这是一个图像分类问题数据集,包含了 60,000 张 32x32 像素大小的彩色图像,共分为 10 个类别。
7. Newsgroups 数据集:这是一个文本分类问题数据集,包含了 20 种不同主题的新闻文章,共有 18,846 个数据点。
以上是 sklearn 中一些常用的数据集,使用这些数据集可以帮助我们更好地理解和学习机器学习算法。
阅读全文