def get_subsample(dataSet, ratio): subdataSet = [] lenSubdata = round(len(dataSet) * ratio)#返回浮点数 while len(subdataSet) < lenSubdata: index = randrange(len(dataSet) - 1)
时间: 2023-05-22 19:00:52 浏览: 134
这是一个Python函数,名为get_subsample,它有两个参数:dataSet和ratio。它的作用是从数据集中随机抽取一部分数据,抽取的比例由ratio参数指定。抽取的数据存储在subdataSet列表中,列表的长度由lenSubdata变量指定,它是数据集长度乘以ratio后四舍五入的结果。
相关问题
def get_subsample(dataSet, ratio): subdataSet = [] lenSubdata = round(len(dataSet) * ratio)
这是一个函数,用于从数据集中随机抽取一定比例的数据。其中,dataSet是原始数据集,ratio是抽取比例。函数的返回值是抽取后的子数据集subdataSet。lenSubdata是子数据集的长度,通过round函数将原始数据集长度乘以抽取比例得到。
def get_CIFAR10_data(num_training=5000, num_validation=500, num_test=500): # Load the raw CIFAR-10 data cifar10_dir = r'D:\daima\cifar-10-python\cifar-10-batches-py' X_train, y_train, X_test, y_test = load_CIFAR10(cifar10_dir) print(X_train.shape) # Subsample the data mask = range(num_training, num_training + num_validation) X_val = X_train[mask] y_val = y_train[mask] mask = range(num_training) X_train = X_train[mask] y_train = y_train[mask] mask = range(num_test) X_test = X_test[mask] y_test = y_test[mask] # 标准化数据,求样本均值,然后 样本 - 样本均值,作用:使样本数据更收敛一些,便于后续处理 # Normalize the data: subtract the mean image # 如果2维空间 m*n np.mean()后 => 1*n # 对于4维空间 m*n*k*j np.mean()后 => 1*n*k*j mean_image = np.mean(X_train, axis=0) X_train -= mean_image X_val -= mean_image X_test -= mean_image # 把通道channel 提前 # Transpose so that channels come first X_train = X_train.transpose(0, 3, 1, 2).copy() X_val = X_val.transpose(0, 3, 1, 2).copy() X_test = X_test.transpose(0, 3, 1, 2).copy() # Package data into a dictionary return { 'X_train': X_train, 'y_train': y_train, 'X_val': X_val, 'y_val': y_val, 'X_test': X_test, 'y_test': y_test, }
这是一个加载 CIFAR-10 数据集并进行预处理的函数。其中,num_training、num_validation 和 num_test 分别表示训练集、验证集和测试集的样本数。函数首先通过 load_CIFAR10 函数加载原始的 CIFAR-10 数据集,然后进行数据的子采样。接着,对数据进行标准化,即减去样本均值,使得数据更容易处理。最后,将数据转换为通道在前的形式,并将其打包到一个字典中返回。
阅读全文