能否将这个大的bin文件切分成多个小的

时间: 2024-09-25 20:03:30 浏览: 3
是的,可以将大文件(.bin)切分为多个较小的文件,这通常是为了管理方便,提高处理效率,或者为了满足存储限制。你可以按特定大小(比如每10万或50万条字符串为一个小文件)分割数据。以下是一种基本的思路: 1. **确定分隔点**: 根据你想要的小文件大小(比如1MB,100万字符串可能需要10个这样的文件),计算从第几个字符串开始分段。假设每个字符串占用的字节数和文件编码已知。 2. **打开原始文件和输出文件**: 用`RandomAccessFile`打开原文件,同时在每个分割点处创建新的输出文件。 3. **读取和写入过程**: 遍历原始文件中的字符串,当达到一个新的分隔点时,将当前的记录写入对应的新文件,并关闭当前的输出文件。接着继续读取下一个分段直到文件结束。 4. **最后处理**: 当读取完整个大文件时,可能还会有一些剩余的字符串没有达到一个完整的分段,这时需要单独处理这部分字符串,写入最后一个输出文件。 以下是一个简化的示例代码(注意这只是基础版本,实际操作中还需要处理边界条件和异常情况): ```java import java.io.*; import java.nio.file.*; public class FileSplitter { public static void main(String[] args) throws IOException { Path sourceFile = Paths.get("big.bin"); Path outputDir = Paths.get("output"); Files.createDirectories(outputDir); // 创建输出目录 long recordCount = calculateRecords(sourceFile); int recordsPerFile = 100000; // 每个文件10万记录 int outputFileIndex = 0; try (SeekableByteChannel inChannel = Files.newByteChannel(sourceFile); RandomAccessFile outStream = new RandomAccessFile(new File(outputDir, "part_" + outputFileIndex++), "rw")) { long startOffset = 0; for (long i = 0; i < recordCount; i += recordsPerFile) { long endOffset = Math.min(startOffset + recordsPerFile * RecordSize, recordCount); writeStrings(inChannel, outStream, startOffset, endOffset); // 更新起始位置和新文件处理 startOffset = endOffset; if (endOffset == recordCount) break; // 如果已经到了末尾,则不需要额外的文件 else { String outFilePath = "part_" + outputFileIndex++; Files.copy(outStream.getChannel(), Paths.get(outputFilePath)); outStream.close(); outStream = new RandomAccessFile(new File(outputDir, outFilePath), "rw"); } } } } private static long calculateRecords(Path file) throws IOException { // 计算文件大小和每个记录的大小,然后得到总记录数 // 省略细节... } private static void writeStrings(SeekableByteChannel input, RandomAccessFile output, long startOffset, long endOffset) throws IOException { // 写入指定范围内的字符串到output // 省略细节... } } ```

相关推荐

import numpy as np import pandas as pd import time import matplotlib.pyplot as plt # 指定文件名 inputFilename = './file.dpmrpt' outputFilename = 'out' # 分组数 N = 101 sm = 1.3e-4 # 计时开始 tic = time.time() # 规范化数据 print('规范化数据中...') content = '' with open(inputFilename) as f: content = f.read() content = content.replace( '(', '' ) content = content.replace( ')', '' ) content = content.replace( 'injection-0:', '' ) # 输出文件名 filename = './file.dpmrpt.csv' print('规范化写出到{}!'.format( filename ) ) with open(filename,'w') as csv: csv.write(content) print('规范化完成!') # 加载规范化后的数据 print('加载规范化后的数据...') data = np.loadtxt(filename, skiprows=17)#读取文件并跳过前两行数据 x, y, z, u, v, w, ve = data[:,1], data[:,2], data[:,3], data[:,4], data[:,5], data[:,6], data[:,7] bin = np.linspace(x.min(), x.max(), N)#创建等差数列,将X分成N个组 out = np.zeros((N-1,7))#out为N-1行,4列矩阵 z_sym = z.copy() z_sym = -z_sym z = np.concatenate((z,z_sym))/0.002 x = np.concatenate((x,x))/0.002 y = np.concatenate((y,y))/0.002 u = np.concatenate((u,u)) print('横截面平均完成。') from mpl_toolkits.mplot3d import Axes3D fig = plt.figure(figsize=(12,10)) #ax1 = plt.axes(projection='3d') s1 = 1e-2 c1 = 40.0*u ax = fig.add_subplot(111,projection='3d') #这种方法可以画多个子图 ax.scatter3D(x, z, y, s = s1, c = c1, cmap='plasma',marker = ',') ax.set_xlabel('x/D', fontname='Times New Roman') ax.set_ylabel('z/D', fontname='Times New Roman') ax.set_zlabel('y/D', fontname='Times New Roman') ax.set_xlim([-15.0,30.0]) ax.set_ylim([-10.0,10.0]) ax.set_zlim([0.0,25.0]) ax.set_box_aspect(aspect=(45,20,25)) ax.tick_params(axis='x', which='major', pad=8, labelsize=8) ax.tick_params(axis='y', which='major', pad=8, labelsize=8) ax.tick_params(axis='z', which='major', pad=8, labelsize=8) plt.show() # 计时结束 toc = time.time() print('Time cost {} s'.format(toc-tic )) print('结束'),如何调整输出的三维图到合适的视角

最新推荐

recommend-type

Openstack镜像制作.docx

在安装过程中,需要注意的是在分区阶段把 10GB 硬盘全部分成一个 ext4 root 分区,不要创建多个分区也不要创建 swap 分区。安装完成后,重启虚拟机镜像,并安装相关模板服务。 二、镜像格式转换 因为 OpenStack 只...
recommend-type

Nutch 读取搜索结果目录统计数据、提取链接结构信息

导出的数据会被分成多个部分文件(如 part-00000),方便处理大量数据。 4. **URL 信息查询**: 如果你想获取特定 URL 的信息,可以使用 `-url` 参数,如 `$ bin/nutch readdb &lt;crawldb_directory&gt; -url ...
recommend-type

Cygwin+NS2安装过程

6. 等待下载文件的完成,下载过程可能会比较慢,因为总文件有60多M,且分成很多小文件。 7. 等待安装的完成,安装过程还是比较慢的,耐心等待就是了。 安装NS2 1. 去ISI官方网站下载ns-allinone-2.29.tar.gz安装包...
recommend-type

ns2安装详细过程ns2安装详细过程

当然也可以选择下载单独的包,然后一个一个安装,不过真的不推荐,因为太麻烦了下载完后,用 WinRAR(我确定 Winzip 能不能解压 tar 格式的文件,谁试试,告诉我一声)把里面的文件都解压到 Cygwin 安装目录下的 ...
recommend-type

yuelu-国庆主题资源《源代码》

yuelu-国庆主题资源《源代码》 yuelu-国庆主题资源
recommend-type

达梦数据库DM8手册大全:安装、管理与优化指南

资源摘要信息: "达梦数据库手册大全-doc-dm8.1-3-162-2024.07.03-234060-20108-ENT" 达梦数据库手册大全包含了关于达梦数据库版本8.1的详细使用和管理指南。该版本具体涵盖了从安装到配置,再到安全、备份与恢复,以及集群部署和维护等多个方面的详细操作手册。以下是该手册大全中的各个部分所涵盖的知识点: 1. DM8安装手册.pdf - 这部分内容将指导用户如何进行达梦数据库的安装过程。它可能包括对系统要求的说明、安装步骤、安装后的配置以及遇到常见问题时的故障排除方法。 2. DM8系统管理员手册.pdf - 这本手册会向数据库管理员提供系统管理层面的知识,可能包含用户管理、权限分配、系统监控、性能优化等系统级别的操作指导。 3. DM8_SQL语言使用手册.pdf - 这部分详细介绍了SQL语言在达梦数据库中的应用,包括数据查询、更新、删除和插入等操作的语法及使用示例。 4. DM8_SQL程序设计.pdf - 为数据库应用开发者提供指导,包括存储过程、触发器、函数等数据库对象的创建与管理,以及复杂查询的设计。 5. DM8安全管理.pdf - 详细介绍如何在达梦数据库中实施安全管理,可能包括用户认证、权限控制、审计日志以及加密等安全功能。 6. DM8备份与还原.pdf - 描述如何在达梦数据库中进行数据备份和数据恢复操作,包括全备份、增量备份、差异备份等多种备份策略和恢复流程。 7. DM8共享存储集群.pdf - 提供了关于如何配置和管理达梦数据库共享存储集群的信息,集群的部署以及集群间的通信和协调机制。 8. DM8数据守护与读写分离集群V4.0.pdf - 这部分内容会介绍达梦数据库在数据守护和读写分离方面的集群配置,保证数据的一致性和提升数据库性能。 9. DM8透明分布式数据库.pdf - 讲解透明分布式数据库的概念、特性以及如何在达梦数据库中进行配置和使用,以便于数据的灵活分布。 10. DM8系统包使用手册.pdf - 这部分将详细介绍系统包的安装、使用和维护,以及如何通过系统包来扩展数据库功能。 11. DM8作业系统使用手册.pdf - 针对数据库作业调度的操作和管理提供指导,可能包括作业的创建、执行、监控和日志管理。 12. DM8_dexp和dimp使用手册.pdf - 指导用户如何使用dexp(数据导出工具)和dimp(数据导入工具),用于大批量数据的迁移和备份。 13. DM8_DIsql使用手册.pdf - 解释DIsql工具的使用方法,这是一个命令行接口工具,用于执行SQL语句和管理数据库。 14. DM8_dmdbchk使用手册.pdf - 介绍dmdbchk工具的检查和维护功能,用于检测和修复数据库潜在的问题。 15. DM8_dminit使用手册.pdf - 讲述dminit工具的使用,该工具用于初始化达梦数据库环境和配置数据库参数。 16. DM8_dmPython使用手册.pdf - 提供达梦数据库与Python语言集成使用的指南,包括如何使用Python语言进行数据库操作和开发。 17. DM8大规模并行处理MPP.pdf - 针对达梦数据库的MPP架构(大规模并行处理)进行深入介绍,包括架构优势、部署与优化等。 该手册大全是达梦数据库用户和管理员不可或缺的参考资料,涵盖了数据库安装、配置、管理、性能优化、备份、故障处理、集群部署等多个方面的知识点,确保用户能够高效、安全地管理和使用达梦数据库。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

【文件处理高手速成】:如何利用FileCopyUtils提升项目效率

![FileCopyUtils](https://docs.spring.io/spring-batch/docs/1.0.x/spring-batch-docs/reference/html/images/spring-batch-reference-model.png) # 1. FileCopyUtils简介 在现代软件开发中,文件操作是不可或缺的一部分,而`FileCopyUtils`作为一个提供文件复制功能的工具类,在Java编程中尤为实用。它为文件复制提供了一个简洁的API,使得开发者能够以最少的代码完成复杂的文件操作任务。在这一章中,我们将从整体上介绍`FileCopyUtil
recommend-type

输入一个字符串句子怎么用C++实现

在C++中,如果你想从用户那里获取输入并存储为一个字符串,可以使用标准库中的`cin`流。下面是一个简单的例子,展示了如何从控制台接收用户的输入,并将其存储在一个`std::string`变量中: ```cpp #include <iostream> #include <string> int main() { std::string userInput; // 定义一个字符串变量来保存用户输入 std::cout << "请输入一个句子:"; // 提示用户输入 getline(std::cin, userInput); // 使用getline函数读取一行直到
recommend-type

Python Matplotlib库文件发布:适用于macOS的最新版本

资源摘要信息: "matplotlib-3.9.2-pp39-pypy39_pp73-macosx_10_15_x86_64.whl" 知识点: 1. 文件类型说明:文件名后缀为“.whl”,这代表该文件是一个Python的轮子(wheel)安装包。Wheel是Python的一种打包格式,旨在通过预先编译二进制扩展模块来加速安装过程,提高安装效率。与传统的源代码分发包(以.tar.gz或.zip结尾)相比,wheel包提供了一种更快、更简便的安装方式。 2. 库文件:文件中标注了“python 库文件”,这意味着该轮子包是为Python设计的库文件。Python库文件通常包含了特定功能的代码模块,它们可以被其他Python程序导入,以便重用代码和扩展程序功能。在Python开发中,广泛地利用第三方库可以大幅提高开发效率和程序性能。 3. matplotlib库:文件名中的“matplotlib”指的是一个流行的Python绘图库。matplotlib是一个用于创建二维图表和图形的库,它为数据可视化提供了丰富的接口。该库支持多种输出格式,如矢量图形和光栅图形,并且与多种GUI工具包集成。它的功能强大,使用简便,因此被广泛应用于科学计算、工程、金融等领域,特别是在数据分析、数值计算和机器学习的可视化任务中。 4. 版本信息:文件名中的“3.9.2”是matplotlib库的版本号。库和软件版本号通常遵循语义化版本控制规范,其中主版本号、次版本号和修订号分别代表了不同类型的更新。在这个案例中,3.9.2表示该版本为3.x系列中的第9次功能更新后的第2次修订,通常反映了库的功能完善和错误修复。 5. 兼容性标签:文件名中的“pp39”指的是使用PyPy 3.9运行时环境。PyPy是一个Python解释器,它使用即时编译(JIT)技术来提升Python程序的执行速度。而“pp73”可能指的是特定版本的PyPy解释器。此外,“macosx_10_15_x86_64”表明该库文件是为运行在苹果macOS操作系统上,支持10.15版本(Catalina)及更高版本的系统,且专为64位x86架构设计。 总结以上信息,给定的文件是一个适用于苹果macOS 10.15及更高版本的64位x86架构,且需要PyPy 3.9运行时环境的Python matplotlib库的轮子安装包。通过该文件,开发者可以快速安装并开始使用matplotlib库来创建数据图表和图形。考虑到matplotlib在数据科学、机器学习和统计分析中的广泛应用,此库文件对于希望在macOS平台上进行数据可视化的Python开发者来说是一个重要的资源。