1.安装库:sklearn,numpy.pandas,matplotlib。2.从sklearn库导入数据集,并切分成训练集和测试集。3.从网上下载adult和波士顿房价数据集,导入并切分成训练集和测试集。 4.展示数据集的大小、部分数据集、训练集的大小、测试集的大 小等。
时间: 2024-09-29 14:10:43 浏览: 46
Python数据分析numpy、pandas、matplotlib库安装及使用方法总结
首先,你需要安装必要的Python库才能继续这个任务。可以使用`pip`命令安装它们:
```bash
pip install sklearn numpy pandas matplotlib
```
接下来,我会简述如何操作这两个数据集:
1. **加载数据**:
- **Sklearn内置数据集**:sklearn提供了许多预处理好的数据集,如鸢尾花(Iris)、糖尿病检测数据等。你可以直接通过`from sklearn.datasets import load_iris`或`load_boston()`获取。例如,成人数据集通常来自于UCI Machine Learning Repository,需要先下载后导入。
```python
from sklearn.datasets import fetch_openml
adult = fetch_openml('adult', version=1, as_frame=True) # 使用fetch_openml下载
boston = load_boston() # 对于波士顿房价数据集
- **下载数据集**:对于网上的数据集,可能需要你自己下载并保存到本地文件夹。然后使用pandas读取CSV或其他格式文件。
```python
import pandas as pd
adult_df = pd.read_csv('adult.csv') # 假设adult.csv是你下载的数据
boston_df = pd.read_csv('boston_housing_data.csv')
```
2. **切分数据集**:
```
from sklearn.model_selection import train_test_split
X_train_adult, X_test_adult, y_train_adult, y_test_adult = train_test_split(adult.data, adult.target, test_size=0.2, random_state=42)
X_train_boston, X_test_boston, y_train_boston, y_test_boston = train_test_split(boston.data, boston.target, test_size=0.2, random_state=42)
```
3. **查看数据信息**:
- 初始数据集大小:`print(adult_df.shape)` 或 `print(boston_df.shape)`
- 展示部分数据:`print(adult_df.head())` 或 `print(boston_df.head())`
- 训练集和测试集大小:`print(f"X_train_adult shape: {X_train_adult.shape}, X_test_adult shape: {X_test_adult.shape}")` 和类似地 for `boston` 数据集。
阅读全文