不带缓存的I/O和标准I/O
首先说说不带缓存的I/O,UNIX的文件I/O read、write是不带缓存的。不带缓存是指每个read、write都调用内核的一个系统调用,它们是POSIX.1的组成部分。
二者的原型为:
ssize_t read( int fd, void* buf, size_t nbytes ); // 若成功返回读到的字节数
ssize_t write( int fd, const void* buf, size_t nbytes ); // 若成功返回已写的字节数
注意,上面的buf不是指read、write带缓存,而是当read时用来存放读出的字节,write时存放待写的字节。对于read,nbytes表示每次最多读的字节数。但这个块的大小将影响I/O的效率,其值和具体系统有关。
补充一下,不带缓存的I/O对文件描述符操作,下面带缓存的I/O是针对流的。
标准I/O库就是带缓存的I/O,它由ANSI C标准说明。当然,标准I/O最终都会调用上面的I/O例程。标准I/O库代替用户处理很多细节,比如缓存分配、以优化长度执行I/O等。
标准I/O提供缓存的目的就是减少调用read和write的次数,它对每个I/O流自动进行缓存管理(标准I/O函数通常调用malloc来分配缓存)。它提供了三种类型的缓存:
1) 全缓存。当填满标准I/O缓存后才执行I/O操作。磁盘上的文件通常是全缓存的。
2) 行缓存。当输入输出遇到新行符或缓存满时,才由标准I/O库执行实际I/O操作。stdin、stdout通常是行缓存的。
3) 无缓存。相当于read、write了。stderr通常是无缓存的,因为它必须尽快输出。
一般而言,由系统选择缓存的长度,并自动分配。标准I/O库在关闭流的时候自动释放缓存。
在标准I/O库中,一个效率不高的不足之处是需要复制的数据量。当每次使用行函数fgets和fputs时,通常需要复制两次数据:一次是在内核和标准I/O缓存之间(当调用read和write时),第二次是在标准I/O缓存(通常系统分配和管理)和用户程序中的行缓存(fgets的参数就需要一个用户行缓存指针)之间。
不管上面讲的到底懂没懂,记住一点:
使用标准I/O例程的一个优点是无需考虑缓存及最佳I/O长度的选择,并且它并不比直接调用read、write慢多少。
带缓存的文件操作是标准C 库的实现,第一次调用带缓存的文件操作函数时标准库会自动分配内存并且读出一段固定大小的内容存储在缓存中。所以以后每次的读写操作并不是针对硬盘上的文件直接进行的,而是针对内存中的缓存的。何时从硬盘中读取文件或者向硬盘中写入文件有标准库的机制控制。不带缓存的文件操作通常都是系统提供的系统调用,更加低级,直接从硬盘中读取和写入文件,由于IO瓶颈的原因,速度并不如意,而且原子操作需要程序员自己保证,但使用得当的话效率并不差。
另外标准库中的带缓存文件IO 是调用系统提供的不带缓存IO实现的。
“术语不带缓冲指的是每个read和write都调用内核中的一个系统调用。所有的磁盘I/O都要经过内核的块缓冲(也称内核的缓冲区高速缓存),唯一例外的是对原始磁盘设备的I/O。既然read或write的数据都要被内核缓冲,那么术语“不带缓冲的I/O“指的是在用户的进程中对这两个函数不会自动缓冲,每次read或write就要进行一次系统调用。“
--------摘自<unix环境编程>