随笔 - 20, 文章 - 0, 评论 - 45, 引用 - 0
数据加载中……

用内存映射文件的方法来读取和修改磁盘文件

        内存映射文件是利用虚拟内存把文件映射到进程的地址空间中去,在此之后进程操作文件,就像操作进程空间里的地址一样了,比如使用memcpy等内存操作的函数。这种方法能够很好的应用在需要频繁处理一个文件或者是一个大文件的场合,这种方式处理IO效率比普通IO效率要高。
优势:
1)速度快
2)可以在源文件中修改文件内容,或者在文件的任意位置添加字符到文件中,就好像操作字符数组一样,不必执行I/O操作,并且不必对文件内存进行缓存。原理为:
把 数据文件的一部分 映射到虚拟地址空间,但没有提交实际内存(也就是说作为页面文件),当有指令要存取这段内存时同样会产 生页面错误异常.操作系统捕获到这个异常后,分配一页内存,映射内存到发生异常的位置,然后把要访问的数据读入到这块内存,继续执行刚才产生异常的指令 (这里我理解的意思是把刚才产生异常的指令在执行一次,这次由于数据已经映射到内存中,指令就可以顺利执行过去),由上面的分析可知,应用程序访问虚拟地 址空间时由操作系统管理数据在读入等内容,应用程序本身不需要调用文件的I/O函数(这点我觉得很重要,也就是为什么使用内存映射文件技术对内存的访问就 象是对磁盘上的文件访问一样).
使用方法:
1)创建或打开一个文件内核对象,用这个内核对象标识磁盘上需要映射的文件(CreateFile)
2) 创建一个文件映射内核对象,告诉系统需要映射的对象需要多少物理存储器(可以大于或小于文件大小)及访问权限(CreateFileMapping),但 创建一个文件映射对象时,系统并不为它保留地址空间区域,也不将文件的存储器映射到这个区域,函数的主要作用是保证文件映射对象能够获取足够的物理存储 器。
3)让系统将文件对象的全部或者部分映射到进程的地址空间(MapViewOfFile)。有两件事必须要处理:首先,必须告诉系统数据文件中的哪个字节将作为视图中的第一个字节来映射。其次,必须告诉系统,文件中有多少个字节需要映射到地址空间。
当然释放过程与上述过程相反。具体的函数详细说明可参考MSDN或windows核心编程。

下面是
使用内存映射文件处理大文件的代码示例:
 1 SYSTEM_INFO sinf;
 2 GetSystemInfo(&sinf);
 3 
 4     // Open the file for reading and writing.
 5     HANDLE hFile = CreateFile(pszPathname, GENERIC_WRITE | GENERIC_READ, 0,
 6         NULL, OPEN_EXISTING, FILE_ATTRIBUTE_NORMAL, NULL);
 7     if (hFile == INVALID_HANDLE_VALUE) {
 8         chMB("File could not be opened.");
 9         return(FALSE);
10     }
11 
12     // Get the size of the file (I assume the whole file can be mapped) in bytes.
13     DWORD dwFileSize = GetFileSize(hFile, NULL);
14 
15     // Create the file-mapping object.
16     HANDLE hFileMap = CreateFileMapping(hFile, NULL, PAGE_READWRITE,
17         0, dwFileSize, NULL);
18     if (hFileMap == NULL) {
19         chMB("File map could not be opened.");
20         CloseHandle(hFile);
21         return(FALSE);
22     }
23 
24     DWORD map_data_offset = 0;
25     DWORD bytes_mapped = sinf.dwAllocationGranularity;
26     PVOID pvFile = NULL;
27     PSTR  ps_ptr = NULL;
28 
29     while(dwFileSize > 0)
30     {
31         if(dwFileSize < bytes_mapped)
32         {
33        pvFile = MapViewOfFile(hFileMap, FILE_MAP_WRITE, 0, map_data_offset, dwFileSize);
34              //对字符数组pvFile的处理
35              map_data_offset += dwFileSize;
36              dwFileSize = 0;
37         }
38         else
39         {
40             pvFile = MapViewOfFile(hFileMap,FILE_MAP_WRITE,0,map_data_offset,bytes_mapped);
41             //对字符数组pvFile的处理
42             map_data_offset += bytes_mapped;
43             dwFileSize -= bytes_mapped;
44         }
45     }
46     // Clean up everything before exiting.
47     UnmapViewOfFile(pvFile);
48     CloseHandle(hFileMap);
49     // Remove trailing zero character added earlier.
50     SetFilePointer(hFile, dwFileSize, NULL, FILE_BEGIN);
51     CloseHandle(hFile);

注意:
1)文件映射对象存储于内核地址范围是所有操作系统的进程共享的,而
MapViewOfFile文件映射地址空间是存在于进程的私有地址空间中,要想指定地址空间首地址可用MapViewOfFileEx函数,但只是建议首地址。
2)使用fstream流是无法做到在本文件的任何位置插入数据的,fstream只能通过另外新建一个磁盘文件来操作,这样的话效率是明显不如内存文件映射的,而且操作起来比较复杂。



posted on 2011-04-16 22:15 Kenny Jiang 阅读(6631) 评论(1)  编辑 收藏 引用 所属分类: Windows

评论

# re: 用内存映射文件的方法来读取和修改磁盘文件  回复  更多评论   

这点我觉得很重要,也就是为什么使用内存映射文件技术对内存的访问就 象是对磁盘上的文件访问一样).


这里应该是写反了
2011-04-23 22:27 | fazhang

只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   博问   Chat2DB   管理