VC++中使用内存映射文件处理大文件
摘要: 本文给出了一种方便实用的解决大文件的读取、存储等处理的方法,并结合相
关程序代码对具体的实现过程进行了介绍。
引言
文件操作是应用程序最为基本的功能之一,Win32 API 和 MFC 均提供有支持文件处理
的函数和类,常用的有 Win32 API 的 CreateFile()、WriteFile()、ReadFile()和 MFC 提供的 CFile
类等。一般来说,以上这些函数可以满足大多数场合的要求,但是对于某些特殊应用领域所
需要的动辄几十 GB、几百 GB、乃至几 TB 的海量存储,再以通常的文件处理方法进行处
理显然是行不通的。目前,对于上述这种大文件的操作一般是以内存映射文件的方式来加以
处理的,本文下面将针对这种 Windows 核心编程技术展开讨论。
内存映射文件
内存映射文件与虚拟内存有些类似,通过内存映射文件可以保留一个地址空间的区域,
同时将物理存储器提交给此区域,只是内存文件映射的物理存储器来自一个已经存在于磁盘
上的文件,而非系统的页文件,而且在对该文件进行操作之前必须首先对文件进行映射,就
如同将整个文件从磁盘加载到内存。由此可以看出,使用内存映射文件处理存储于磁盘上的
文件时,将不必再对文件执行 I/O 操作,这意味着在对文件进行处理时将不必再为文件申请
并分配缓存,所有的文件缓存操作均由系统直接管理,由于取消了将文件数据加载到内存、
数据从内存到文件的回写以及释放内存块等步骤,使得内存映射文件在处理大数据量的文件
时能起到相当重要的作用。另外,实际工程中的系统往往需要在多个进程之间共享数据,如
果数据量小,处理方法是灵活多变的,如果共享数据容量巨大,那么就需要借助于内存映射
文件来进行。实际上,内存映射文件正是解决本地多个进程间数据共享的最有效方法。
内存映射文件并不是简单的文件 I/O 操作,实际用到了 Windows 的核心编程技术--内存
管理。所以,如果想对内存映射文件有更深刻的认识,必须对 Windows 操作系统的内存管
理机制有清楚的认识,内存管理的相关知识非常复杂,超出了本文的讨论范畴,在此就不再
赘述,感兴趣的读者可以参阅其他相关书籍。下面给出使用内存映射文件的一般方法:
首先要通过 CreateFile()函数来创建或打开一个文件内核对象,这个对象标识了磁盘上
将要用作内存映射文件的文件。在用 CreateFile()将文件映像在物理存储器的位置通告给操
作系统后,只指定了映像文件的路径,映像的长度还没有指定。为了指定文件映射对象需要
多大的物理存储空间还需要通过 CreateFileMapping()函数来创建一个文件映射内核对象以
告诉系统文件的尺寸以及访问文件的方式。在创建了文件映射对象后,还必须为文件数据保
留一个地址空间区域,并把文件数据作为映射到该区域的物理存储器进行提交。由
MapViewOfFile()函数负责通过系统的管理而将文件映射对象的全部或部分映射到进程地址
空间。此时,对内存映射文件的使用和处理同通常加载到内存中的文件数据的处理方式基本
一样,在完成了对内存映射文件的使用时,还要通过一系列的操作完成对其的清除和使用过
资源的释放。这部分相对比较简单,可以通过 UnmapViewOfFile()完成从进程的地址空间撤
消文件数据的映像、通过 CloseHandle()关闭前面创建的文件映射对象和文件对象。
评论4