python insert into 小文件过多达到万级别以上如何优化

时间: 2023-10-13 18:53:25 浏览: 83

python频繁写入文件时提速的方法

### Python 频繁写入文件时提速方法详解 #### 一、问题背景与解决方案概述在实际开发过程中，我们经常遇到需要批量处理大量文件的情况，例如读取、解析、写入等操作。当文件数量巨大时，这些操作可能会消耗大量的时间。本文将围绕如何在Python中针对频繁写入文件这一场景进行优化提速展开讨论。 #### 二、基本原理在进行文件写入操作时，主要考虑两个方面来提升效率： 1. **减少磁盘I/O次数**：磁盘访问的速度远低于内存访问速度，因此尽可能减少磁盘的读写次数是提高整体性能的关键。 2. **利用多线程或多进程**：现代计算机通常具有多核心处理器，合理利用多线程或多进程可以有效利用多核心并行处理能力，从而提高执行效率。 #### 三、分批处理策略如果需要处理的文件数量非常大，可以将文件列表拆分成多个小批次，每个批次分别通过不同的进程或线程处理。这样做不仅可以利用多核CPU的优势，还能避免一次性加载大量数据导致内存不足的问题。 - **分批原则**：根据CPU核心数量来决定分批的数量。例如，若CPU有32个核心，则理论上可以将任务分为32份，每一份在一个核心上独立运行，达到最大并行度。 - **分批实现**：可以使用Python的`multiprocessing`库来实现多进程，或者使用`threading`库实现多线程处理。 #### 四、示例代码分析下面是一段具体的Python代码示例，用于展示如何生成流场数据并将其写入文件的过程。为了便于理解，我们将代码分为几个部分进行分析： ```python # -*- coding:utf-8 -*- import numpy as np from glob import glob import os from tqdm import tqdm import multiprocessing # 定义全局变量 label_path = '/home/ying/data/shiyongjie/distortion_datasets/new_distortion_dataset/train/label.txt' file_path = '/home/ying/data/shiyongjie/distortion_datasets/new_distortion_dataset/train/distortion_image' save_path = '/home/ying/data/shiyongjie/distortion_datasets/new_distortion_dataset/train/flow_field' r_d_max = 128 image_index = 0 # 读取文件列表 with open(label_path) as txt_file: file_list = txt_file.readlines() # 构建文件名与其对应标签的映射关系 file_label = {item.split()[0]: item[1] for item in file_list} # 定义函数生成流场数据 def generate_flow_field(image_list): for image_file_path in tqdm(image_list): # 使用tqdm显示进度条 pixel_flow = np.zeros(shape=(256, 256, 2)) image_file_name = os.path.basename(image_file_path) k = float(file_label[image_file_name]) * (-1) * 1e-7 r_u_max = r_d_max / (1 + k * r_d_max ** 2) scale = r_u_max / 128 for i_u in range(256): for j_u in range(256): x_u = float(i_u - 128) y_u = float(128 - j_u) theta = math.atan2(y_u, x_u) r = math.sqrt(x_u ** 2 + y_u ** 2) r = r * scale r_d = (1.0 - math.sqrt(1 - 4.0 * k * r ** 2)) / (2 * k * r + 1e-32) x_d = int(round(r_d * math.cos(theta))) y_d = int(round(r_d * math.sin(theta))) i_d = int(x_d + W / 2.0) j_d = int(H / 2.0 - y_d) if 0 <= i_d < W and 0 <= j_d < H: value1 = (i_d - 128.0) / 128.0 value2 = (j_d - 128.0) / 128.0 pixel_flow[j_u, i_u, 0] = value1 pixel_flow[j_u, i_u, 1] = value2 # 保存为.npy文件 saved_image_file_path = os.path.join(save_path, image_file_name.split('.')[0] + '.npy') np.save(saved_image_file_path, pixel_flow) # 多进程处理 def process_files_in_parallel(file_paths, num_processes=multiprocessing.cpu_count()): pool = multiprocessing.Pool(processes=num_processes) chunk_size = len(file_paths) // num_processes chunks = [file_paths[i:i + chunk_size] for i in range(0, len(file_paths), chunk_size)] results = [] for chunk in chunks: result = pool.apply_async(generate_flow_field, args=(chunk,)) results.append(result) pool.close() pool.join() # 主函数 if __name__ == '__main__': image_list = glob(os.path.join(file_path, '*')) process_files_in_parallel(image_list) ``` #### 五、关键点总结 1. **多进程利用**：通过`multiprocessing`库将任务分配给多个子进程并行处理，有效利用多核CPU资源。 2. **文件分批处理**：根据CPU核心数将文件列表分割成多个子列表，每个子列表由一个单独的进程处理。 3. **利用Numpy数组**：使用Numpy数组代替传统的Python列表，大幅提高了数据处理效率。 4. **文件读写优化**：使用`with`语句确保文件正确关闭；使用`np.save`保存数组，比传统的文件写入更快。 5. **进度条显示**：通过`tqdm`库添加进度条，提高用户体验，使程序运行过程更加直观。通过以上策略和技术的应用，可以显著提高Python在处理大量文件时的写入效率。

如果您想在 Python 中插入大量数据到小文件中，可以尝试以下优化方法： 1. 使用批量操作：将多个插入操作合并成一个批量操作，这样可以减少每个操作的开销。例如，使用 executemany() 方法一次性插入多行数据。 2. 使用事务：在插入大量数据时，使用事务可以减少数据库的 I/O 操作次数，并提高插入的效率。 3. 使用多线程或多进程：将插入操作分配给多个线程或进程，并行执行可以加快插入的速度。 4. 调整数据库缓存大小：可以通过调整数据库的缓存大小来改善插入的性能。例如，在 SQLite 中，可以通过 PRAGMA cache_size 命令来调整缓存大小。 5. 调整文件系统缓存大小：如果您的文件系统使用了缓存，可以通过调整缓存大小来改善插入的性能。例如，在 Linux 中，可以通过调整 vm.dirty_background_bytes 和 vm.dirty_bytes 参数来调整缓存大小。请注意，在进行大量数据插入时，还应该考虑到数据的一致性和错误处理。如果出现插入错误，应该及时处理并回滚事务。

阅读全文

python insert into 小文件过多达到万级别以上 如何优化

相关推荐

使用Python构造hive insert语句说明

python批量获取html文件中的表格内容，存储到db文件中

Python INSERT INTO

python insert into list

insert into的python写法

python自动生成 insert into table 数据的脚本

python insert语句

python insert mysql

how to insert into labeltext in python

python replace into

sqlalchemy INSERT INTO

python 实现insert语句

insert语句python

insert into 怎么用

python df1.insert

xml insert into 新增数据

insert into set的用法

how to insert message from a list into the html i create in python

最新推荐

Python实现读取TXT文件数据并存进内置数据库SQLite3的方法

python3实现往mysql中插入datetime类型的数据

用Python将Excel数据导入到SQL Server的例子

常用python编程模板汇总

Python爬取数据并写入MySQL数据库的实例

前端协作项目：发布猜图游戏功能与待修复事项

管理建模和仿真的文件

【高斯信道信号编码优化】：4大方法优化Chirp信号编码过程

对给定图，实现图的深度优先遍历和广度优先遍历。以邻接表或邻接矩阵为存储结构，实现连通无向图的深度优先和广度优先遍历。以用户指定的结点为起点，分别输出每种遍历下的结点访问序列，并调试算法。使用C语言

Spring框架REST服务开发实践指南

python insert into 小文件过多达到万级别以上如何优化