import numpy as np import pandas as pd # 输入的数据文件 inputfile = 'data/GoodsOrder.csv' # 读取数据 data = pd.read_csv(inputfile,encoding = 'gbk') # 查看数据属性 data.info()分析注释
时间: 2024-04-03 16:36:30 浏览: 117
这段代码是一个Python脚本,目的是读取一个名为"GoodsOrder.csv"的数据文件,并使用 pandas 库将其转换为一个数据框(DataFrame)以便进行后续分析。
具体来说,该脚本首先导入了 numpy 和 pandas 两个库,并指定了要读取的数据文件路径。然后,使用 pandas 库的 read_csv() 函数读取数据文件,将其存储在名为 data 的数据框中。其中,encoding参数指定数据文件采用的字符编码格式为 GBK。
最后,使用 data.info() 函数查看 data 数据框的属性信息,包括每个列的名称、数据类型、非空值数量等。这个函数可以帮助我们了解数据的基本情况,例如数据是否有缺失、是否需要进行类型转换等,从而为后续的数据分析和处理提供参考。
相关问题
# -*- coding: utf-8 -*- """ Transform the data type from ascii to ubyte format (8 bits unsigned binary) and save to new files, which would reduce the data size to 1/3, and would save the data transforming time when read by the python @author: Marmot """ import numpy as np import time from itertools import islice import pandas as pd # data_folder = '../../data/' set_list = ['train','testA','testB'] size_list = [10000,2000,2000] time1= time.time() for set_name,set_size in zip(set_list,size_list): output_file = data_folder + set_name + '_ubyte.txt' f = open(output_file, "w") f.close() Img_ind = 0 input_file = data_folder + set_name +'.txt' with open(input_file) as f: for content in f: Img_ind = Img_ind +1 print('transforming ' + set_name + ': ' + str(Img_ind).zfill(5)) line = content.split(',') title = line[0] + ' '+line[1] data_write = np.asarray(line[2].strip().split(' ')).astype(np.ubyte) data_write = (data_write + 1).astype(np.ubyte) if data_write.max()>255: print('too large') if data_write.min()<0: print('too small') f = open(output_file, "a") f.write(data_write.tobytes()) f.close() time2 = time.time() print('total elapse time:'+ str(time2- time1)) #%% generate train label list value_list =[] set_name = 'train' input_file = data_folder + set_name +'.txt' with open(input_file) as f: for content in f: line = content.split(',') value_list.append(float(line[1])) value_list = pd.DataFrame(value_list, columns=['value']) value_list.to_csv(data_folder + 'train_label.csv',index = False,header = False)
这段代码的主要功能是将数据集中的图像像素值从 ASCII 码转换为无符号 8 位二进制格式,并保存到新文件中,同时生成训练集标签列表。
代码首先定义了一个数据路径列表 `set_list` 和一个数据子集大小列表 `size_list`。然后通过循环遍历每个数据子集,对每个子集执行以下操作:
1. 定义了一个输出文件路径 `output_file`,并创建一个空文件;
2. 读取输入文件 `input_file`,遍历每个图像像素值,并将其转换为无符号 8 位二进制格式;
3. 将转换后的图像像素值写入输出文件中;
4. 遍历完成后,输出文件中将包含整个数据子集的所有图像像素值。
注意,代码中的 `data_folder` 变量指定了数据集所在的文件夹路径。
另外,代码的最后还生成了训练集标签列表。具体来说,代码读取训练集文件 `train.txt`,提取其中的标签信息,并将标签保存到一个 CSV 文件 `train_label.csv` 中,以供后续的模型训练使用。
import pandas as pd import numpy as np import matplotlib.pyplot as plt from keras.models import Model, Input from keras.layers import Conv1D, BatchNormalization, Activation, Add, Flatten, Dense from keras.optimizers import Adam # 读取CSV文件 data = pd.read_csv("3c_left_1-6.csv", header=None) # 将数据转换为Numpy数组 data = data.values # 定义输入形状 input_shape = (data.shape[1], 1) # 定义深度残差网络 def residual_network(inputs): # 第一层卷积层 x = Conv1D(32, 3, padding="same")(inputs) x = BatchNormalization()(x) x = Activation("relu")(x) # 残差块 for i in range(5): y = Conv1D(32, 3, padding="same")(x) y = BatchNormalization()(y) y = Activation("relu")(y) y = Conv1D(32, 3, padding="same")(y) y = BatchNormalization()(y) y = Add()([x, y]) x = Activation("relu")(y) # 全局池化层和全连接层 x = Flatten()(x) x = Dense(128, activation="relu")(x) x = Dense(data.shape[1], activation="linear")(x) outputs = Add()([x, inputs]) return outputs # 构建模型 inputs = Input(shape=input_shape) outputs = residual_network(inputs) model = Model(inputs=inputs, outputs=outputs) # 编译模型 model.compile(loss="mean_squared_error", optimizer=Adam()) # 训练模型 model.fit(data[..., np.newaxis], data[..., np.newaxis], epochs=100) # 预测数据 predicted_data = model.predict(data[..., np.newaxis]) predicted_data = np.squeeze(predicted_data) # 可视化去噪前后的数据 fig, axs = plt.subplots(3, 1, figsize=(12, 8)) for i in range(3): axs[i].plot(data[:, i], label="Original Signal") axs[i].plot(predicted_data[:, i], label="Denoised Signal") axs[i].legend() plt.savefig("denoised_signal.png") # 将去噪后的数据保存为CSV文件 df = pd.DataFrame(predicted_data, columns=["x", "y", "z"]) df.to_csv("denoised_data.csv", index=False)报错为Traceback (most recent call last): File "G:\project2\main.py", line 51, in <module> model.fit(data[..., np.newaxis], data[..., np.newaxis], epochs=100) File "G:\python\envs\tensorflow\lib\site-packages\keras\engine\training.py", line 1154, in fit batch_size=batch_size) File "G:\python\envs\tensorflow\lib\site-packages\keras\engine\training.py", line 621, in _standardize_user_data exception_prefix='target') File "G:\python\envs\tensorflow\lib\site-packages\keras\engine\training_utils.py", line 145, in standardize_input_data str(data_shape)) ValueError: Error when checking target: expected add_6 to have shape (3, 3) but got array with shape (3, 1)
这错误提示表明,模型的输出形状是 (3, 3),而你的目标数据的形状是 (3, 1)。这可能是由于你的目标数据的维度不正确导致的。在这种情况下,你可以尝试将目标数据的维度更改为 (n, 3, 1),其中 n 是样本数。你可以使用 np.newaxis 命令来添加一个新维度,例如:
```
model.fit(data[..., np.newaxis], data[..., np.newaxis], epochs=100)
```
可以将其修改为:
```
model.fit(data[..., np.newaxis], data[..., np.newaxis, np.newaxis], epochs=100)
```
这将为目标数据添加一个新的维度,使其形状变为 (n, 3, 1)。
阅读全文