3.从网上下载adult数据集,导入并切分成训练集和测试集。展示数据集的大小、部分数据集、训练集的大小、测试集的大小等。
时间: 2024-09-29 17:11:06 浏览: 65
UCI Adult 数据集原始数据.7z
首先,你需要访问UCI Machine Learning Repository(https://archive.ics.uci.edu/ml/datasets/adult),那里有Adult Income数据集,这是一个关于美国人口普查的数据集,用于预测个人年收入超过5万美元的概率。
下载完成后,你可以使用Python的pandas库来处理数据。这里是一个简单的步骤说明:
1. **导入所需的库**:
```python
import pandas as pd
from sklearn.model_selection import train_test_split
```
2. **加载数据**:
```python
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data"
column_names = ['age', 'workclass', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'income']
data = pd.read_csv(url, names=column_names, header=None)
```
注意:原始数据没有列名,所以我们手动指定了一组列名。
3. **查看数据集大小**:
```python
print("数据集大小:", data.shape)
```
4. **预处理数据,例如处理缺失值和类别变量**。这通常需要编码(如One-Hot编码)类别特征。
5. **分割数据**:
```python
X = data.drop('income', axis=1) # 特征
y = data['income'] # 目标变量
# 划分训练集和测试集(常见的比例是80%训练,20%测试)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
6. **检查训练集和测试集的大小**:
```python
print("训练集大小:", X_train.shape, ", 测试集大小:", X_test.shape)
```
通过上述操作,你应该能看到数据集的总体规模以及训练集和测试集的具体大小。这部分代码会根据给定的`test_size`生成随机划分,所以每次运行结果可能会有所不同。
阅读全文