写一个Python脚本,实现如下功能: 从本地磁盘加载一个csv格式数据集到Pandas DataFrame确保数据集中的数据都是数字类型,如果是字符串类型则转成数字类型,并将转换映射保存在字典中供后面使用 检查数据集中是否存在缺失值,如果记录中只有一个缺失值则处理缺失值,如果有多于一个缺失值则产出该条记录 将数据集拆分为训练集和验证集
时间: 2023-03-12 22:05:47 浏览: 94
很高兴为您解答!这是一个示例Python脚本,可以实现上述功能:import pandas as pd# 从本地磁盘加载一个csv格式数据集
data = pd.read_csv("data.csv")# 确保数据集中的数据都是数字类型,如果是字符串类型则转成数字类型,并将转换映射保存在字典中供后面使用
str_to_num_map = {}
for col in data.columns:
if data[col].dtype == 'object':
unique_values = data[col].unique()
num_values = list(range(len(unique_values)))
str_to_num_map[col] = dict(zip(unique_values, num_values))
data[col] = data[col].map(str_to_num_map[col])# 检查数据集中是否存在缺失值,如果记录中只有一个缺失值则处理缺失值,如果有多于一个缺失值则产出该条记录
data = data.dropna(thresh=len(data.columns)-1)# 将数据集拆分为训练集和验证集
train_data = data.sample(frac=0.8, random_state=1)
val_data = data.drop(train_data.index)
阅读全文