实战：使用Python生成与读取CSV文件

5星 · 超过95%的资源 22 浏览量更新于2024-08-31 1 收藏 250KB PDF 举报

本资源主要介绍了如何在Python中生成和读取CSV文件，特别是针对加利福尼亚房价预测数据集的处理。CSV（Comma Separated Values）是一种常见的数据存储格式，以逗号分隔各个字段，每行代表一个记录。在描述中，首先创建了一个名为"generate_csv"的输出目录，用于存放生成的CSV文件。如果该目录不存在，程序会自动创建。接着定义了一个`save_to_csv`函数，该函数接受输出目录、存储数据、数据类型前缀（如'train'或'test'）、可选的列名头以及数据切分的份数。函数内部使用了`os.path.join`和`np.array_split`来分割数据并将其写入多个CSV文件，每个文件的名称包含前缀和顺序编号。数据通过`repr(col)`转换成字符串，然后用逗号连接写入文件。最后，函数返回所有生成的文件名列表。在代码片段中，首先将训练数据、验证数据和测试数据合并，然后添加了目标变量（"MidianHouseValue"），并定义了列名头。`np.c_`函数用于合并数组，使得特征和目标值按行排列。生成的列名头以逗号分隔并写入文件。生成CSV文件后，读取文件通常可以使用Python内置的`csv`模块或者pandas库的`read_csv`函数。`csv`模块提供基础的读写功能，而pandas则提供了更高级的数据处理接口，可以方便地将CSV数据转换为DataFrame对象，便于数据分析和预处理。在实际应用中，CSV文件由于其简单、通用，常被用来存储和交换数据。对于大规模数据，如加州房价预测数据集，可能会选择将数据切分存入多个文件，以减少单个文件的大小，提高读写效率。同时，通过`header`参数，我们可以为CSV文件指定列名，以便于后续处理时快速定位和理解数据含义。总结来说，这个资源详细展示了如何利用Python处理CSV文件，包括生成、分割和读取，特别关注了在大数据集上的操作，这对于数据科学家和机器学习工程师来说是非常实用的技能。

实战实战csv文件的生成与读取文件的生成与读取

将加利福尼亚房价预测数据集（回归问题）生成csv文件，并读取生成的csv文件。

1、、csv文件的生成文件的生成

csv文件：“，”分割，按行存储的文件。

output_dir = "generate_csv" #定义文件夹存储生成的数据文件

if not os.path.exists(output_dir):

os.mkdir(output_dir)

#将一个单独的dataset,train,valid,test保存到文件中。

def save_to_csv(output_dir, #输出文件夹

data, #存储的数据

name_prefix, #表示是train还是test数据

header=None,

n_parts=10): #表示数据切分为10个文件进行存储

path_format = os.path.join(output_dir, "{}_{:02d}.csv")

filenames = []

for file_idx, row_indices in enumerate(

np.array_split(np.arange(len(data)), n_parts)):

part_csv = path_format.format(name_prefix, file_idx)

filenames.append(part_csv)

with open(part_csv, "wt", encoding="utf-8") as f:

if header is not None:

f.write(header + "")

for row_index in row_indices: #遍历行索引

f.write(",".join(

[repr(col) for col in data[row_index]]))

f.write('')

return filenames

#np.c_可以把数据按行进行merge

train_data = np.c_[x_train_scaled, y_train] valid_data = np.c_[x_valid_scaled, y_valid] test_data = np.c_[x_test_scaled, y_test]

header_cols = housing.feature_names + ["MidianHouseValue"] header_str = ",".join(header_cols)

train_filenames = save_to_csv(output_dir, train_data, "train",

header_str, n_parts=20)

valid_filenames = save_to_csv(output_dir, valid_data, "valid",

header_str, n_parts=10)

test_filenames = save_to_csv(output_dir, test_data, "test",

header_str, n_parts=10)

note:

for file_idx, row_indices in enumerate(

np.array_split(np.arange(len(data)), n_parts)):

上面的for循环完成了以下事情：

1、np.arange(len(data)）生成了和data一样长的数组，例如data里有n个元素，，则生成的数组中也有n个元素，元素值为[0, n -1]，它是用来当索引从data中取数据的。

2、np.array_split，将当索引的数组分为 n_parts个部分，分为 n_parts个部分后，就可以用n_parts里面每一组的索引到data里面取值，获得这一部分的数据。

3、enumerate，给每一组标记了一个值，这样，每一组可以通过row_indices获得，标记的值可以通过file_idx获得，这个file_idx可以作为生成文件的ID，填充文件名的一部

分。

运行后，在当前目录下生成 generate_csv文件夹，其中包含20个train文件，10个test文件，10个valid文件，每个文件中都包含一行header：MedInc, HouseAge, AveRooms,

AveBedrms, Population, AveOccup, Latitude, Longitude, MidianHouseValue。部分目录列表如下图所示：

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38543280

粉丝: 4
资源: 975

实战：使用Python生成与读取CSV文件

Selenium2Python自动化测试：csv文件操作与实战序言

C#实战项目：保存CSV文件的源码示例

pandas数据处理实战：CSV与JSON文件资源包

使用Python对Csv文件操作共5页.pdf.zip

掌握Python：csv文件处理实践教程

Python3数据分析：CSV读取与基础统计操作详解

JMETER参数化实战：函数助手与CSV配置详解

【OpenCSV解析与生成CSV文件】：Java CSV处理，从入门到精通

Python读取CSV文件：自然语言处理和文本分析

使用Pandas读取CSV文件时如何处理日期时间数据

最新资源