data = pd.read_csv('D:\\航空\\test.csv') data = pd.read_csv('D:\\航空\\train.csv') print(data.shape) data.head() data.info() def clean_data()
时间: 2023-12-01 21:02:30 浏览: 81
sign_mnist 数据分为train.csv和test.csv
这段代码中,我们首先使用 Pandas 库的 `read_csv()` 函数从 CSV 文件中读取了两份数据,分别是 `test.csv` 和 `train.csv`。接着,我们使用 `print(data.shape)` 打印了数据的形状,即行数和列数。然后,我们使用 `data.head()` 打印了数据的前几行,以便快速了解数据的结构和内容。最后,我们使用 `data.info()` 打印了数据的基本信息,如数据类型、缺失值情况等等。
如果你要对数据进行清洗处理,可以在 `clean_data()` 函数中定义数据清洗的具体操作。具体来说,你可以使用 Pandas 库提供的数据清洗函数和方法,如 `drop_duplicates()`、`fillna()`、`astype()` 等等。例如:
```python
def clean_data(data):
# 去除重复值
data = data.drop_duplicates()
# 填充缺失值
data = data.fillna(0)
# 转换数据类型
data['age'] = data['age'].astype(int)
return data
```
在上面的代码中,我们定义了一个 `clean_data()` 函数,它接收一个数据集 `data` 作为输入参数。在函数内部,我们对数据进行了去重、填充缺失值和转换数据类型等操作,并将处理后的数据集返回。如果你要对 `test.csv` 和 `train.csv` 进行清洗处理,可以分别调用 `clean_data()` 函数并传入相应的数据集。例如:
```python
# 对 test.csv 进行清洗处理
test_data = pd.read_csv('D:\\航空\\test.csv')
cleaned_test_data = clean_data(test_data)
# 对 train.csv 进行清洗处理
train_data = pd.read_csv('D:\\航空\\train.csv')
cleaned_train_data = clean_data(train_data)
```
在上面的代码中,我们分别读取了 `test.csv` 和 `train.csv` 文件,并调用 `clean_data()` 函数对数据进行了清洗处理。处理后的数据分别保存在 `cleaned_test_data` 和 `cleaned_train_data` 变量中供后续使用。
阅读全文