何时为I/O(C)构建自己的缓冲系统?

我必须处理非常大的文本文件(2 GB),必须逐行读/写它们.使用ofstream编写2300万行非常慢,所以在开始时,我试图加快在内存缓冲区(例如256 MB或512 MB)中写入大块行的过程,然后将缓冲区写入文件.这不起作用,性能或多或少相同.我在阅读文件时遇到同样的问题.我知道I / O操作是由STL I / O系统缓冲的,这也取决于磁盘调度程序策略(由操作系统管理,在我的情况下是 Linux).

有关如何提高性能的任何想法?

PS:我一直在考虑使用后台子进程(或线程)来读取/写入数据块,而程序正在处理数据,但我不知道(主要是在子进程的情况下)这是否值得.

解决方法

2GB的文件非常大,您需要了解可能充当瓶颈的所有可能区域:

>硬盘本身
>硬盘接口(IDE / SATA / RAID / USB?)
>操作系统/文件系统
> C/C++图书馆
>你的代码

我首先做一些测量:

>您的代码读取/写入2GB文件需要多长时间,
>’dd‘命令读取和写入磁盘的速度有多快?例…

dd if = / dev / zero bs = 1024 count = 2000000 of = file_2GB
>使用大型fwrite()/ fread()调用写入/读取需要多长时间

假设您的磁盘能够以大约40Mb / s的速度进行读/写(这可能是一个真实的数字),您的2GB文件运行速度不会超过50秒.

它实际需要多长时间?

Hi Roddy,using fstream read method
with 1.1 GB files and large
buffers(128,255 or 512 MB) it takes
about 43-48 seconds and it is the same
using fstream getline (line by line).
cp takes almost 2 minutes to copy the
file.

在这种情况下,您的硬件绑定. cp必须读写,并且会在疯狂的情况下在磁盘表面上来回寻找.所以它(如你所见)将比简单的’读’案例差两倍多.

为了提高速度,我首先尝试的是更快的硬盘驱动器或SSD.

你还没说过磁盘接口是什么? SATA几乎是最简单/最快的选择.另外(显而易见的是,这……)确保磁盘实际上在您的代码运行的同一台机器上,否则您将受到网络限制……

相关文章

/** C+⬑ * 默认成员函数 原来C++类中,有6个默认成员函数: 构造函数 析构函数 拷贝...
#pragma once // 1. 设计一个不能被拷贝的类/* 解析:拷贝只会放生在两个场景中:拷贝构造函数以及赋值运...
C类型转换 C语言:显式和隐式类型转换 隐式类型转化:编译器在编译阶段自动进行,能转就转,不能转就编译...
//异常的概念/*抛出异常后必须要捕获,否则终止程序(到最外层后会交给main管理,main的行为就是终止) try...
#pragma once /*Smart pointer 智能指针;灵巧指针 智能指针三大件//1.RAII//2.像指针一样使用//3.拷贝问...
目录<future>future模板类成员函数:promise类promise的使用例程:packaged_task模板类例程...