Uci 二分类数据集有哪些
时间: 2023-06-18 14:04:32 浏览: 145
UCI Machine Learning Repository中有很多二分类数据集,以下是一些比较常用的:
1. Breast Cancer Wisconsin (Diagnostic) Data Set:乳腺癌数据集,包含30个特征,用于预测是良性肿瘤还是恶性肿瘤。
2. Ionosphere Data Set:电离层数据集,包含34个特征,用于预测电离层反射是否存在异常。
3. Heart Disease Data Set:心脏病数据集,包含13个特征,用于预测是否患有心脏病。
4. Sonar Data Set:声纳数据集,包含60个特征,用于预测是否为金属圆盘还是岩石。
5. Banknote Authentication Data Set:纸币鉴别数据集,包含4个特征,用于预测纸币是否真实。
6. Wine Data Set:葡萄酒数据集,包含13个特征,用于预测葡萄酒的种类。
7. German Credit Data Set:德国信用数据集,包含20个特征,用于预测客户是否会违约。
8. Pima Indians Diabetes Data Set:皮马印第安人糖尿病数据集,包含8个特征,用于预测是否患有糖尿病。
9. Adult Data Set:成人收入数据集,包含14个特征,用于预测个人是否年收入超过5万美元。
以上数据集只是UCI Machine Learning Repository中的部分二分类数据集,还有很多其他数据集可供选择。
相关问题
uci心脏病数据集python线性回归
UCI心脏病数据集是一个二分类问题,所以线性回归不是最适合的模型。但是,您可以使用逻辑回归来解决这个问题。
以下是使用Python进行逻辑回归分析的步骤:
1. 下载数据集:您可以在UCI Machine Learning Repository上找到Heart Disease数据集,下载数据集并将其保存到您的本地文件夹中。
2. 导入库和数据:在Python中,您需要导入pandas、numpy、sklearn库来读取和分析数据集。使用pandas的read_csv()函数将数据集读取到pandas DataFrame中。
```python
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
heart_data = pd.read_csv('heart.csv')
```
3. 数据清理和转换:在进行数据分析之前,您需要对数据进行清理和转换。这可能包括删除缺失值、转换数据类型和标准化数据等操作。
```python
# 删除缺失值所在的行
heart_data.dropna(inplace=True)
# 转换数据类型为整数
heart_data = heart_data.astype(int)
# 标准化数据
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
heart_data = pd.DataFrame(scaler.fit_transform(heart_data), columns=heart_data.columns)
```
4. 拆分数据集:将数据集拆分为训练集和测试集,以便进行模型训练和评估。
```python
X = heart_data.drop('target', axis=1)
y = heart_data['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
5. 训练模型:使用逻辑回归模型来训练数据集,并使用训练好的模型来预测测试集数据。
```python
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
```
6. 模型评估:使用sklearn库中的metrics模块来评估模型的性能,比如准确率、召回率、F1分数等。
```python
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
print("Accuracy:", accuracy_score(y_test, y_pred))
print("\nConfusion Matrix:\n", confusion_matrix(y_test, y_pred))
print("\nClassification Report:\n", classification_report(y_test, y_pred))
```
希望这些指导对您有所帮助!
线性判决分类数据集哪里找
线性判别分类(LDA)是一种经典的分类算法,常用于处理二分类问题。常用的线性判别分类数据集有以下几个:
1. 鸢尾花数据集(Iris Dataset):这是一个非常经典的数据集,包含三个品种的鸢尾花,每个品种50个样本,共150个样本。每个样本包含了四个特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度。可以从sklearn库中导入。
2. 手写数字数据集(MNIST Dataset):这是一个非常常用的数据集,包含了60,000个训练样本和10,000个测试样本,每个样本是一个28*28像素的灰度图像,代表一个手写数字。可以从tensorflow库中导入。
3. 人脸识别数据集(Labeled Faces in the Wild):这是一个人脸识别数据集,包含了13,000多个人脸图像,每个图像都是250x250像素,可以从sklearn库中导入。
4. 葡萄酒数据集(Wine Dataset):这是一个包含178个样本,每个样本包含了13个特征的数据集,用于分类葡萄酒的三个品种。可以从sklearn库中导入。
以上数据集都可以从sklearn库中导入,也可以在UCI机器学习存储库上找到。