高效的大文件拷贝

将之典藏 2011-09-19 23:25:21 累计浏览 4,346 次

本机暂存

内容概览

这篇讲的是Tumblr工程团队如何解决大文件复制到多个目标时的效率问题。他们发现当需要将同样的文件分发到多个存储位置时，传统方式如循环执行cp或rsync命令会导致重复的I/O读取和带宽消耗，形成性能瓶颈。

文章核心方案是利用Linux系统中的“写时复制”文件系统特性。具体来说，他们并没有真正复制文件数据，而是创建了一个指向源文件的“轻量级副本”。这个副本仅占用极小的元数据空间，读取时会直接映射到源文件数据。当需要修改某个副本时，系统才会在那一刻复制并修改特定的数据块，即“写时复制”。这种方法使得文件分发操作的开销几乎降为零。

作者通过实际代码示例和基准测试对比了传统递归复制与他们的新方案。在分发GB级的大文件时，传统方式耗时数秒甚至数分钟，而基于写时复制的方案仅需几毫秒，提升了数百倍。对于需要频繁进行镜像同步或配置分发的场景，这个技巧非常实用。

译自：Efficiently copying files to multiple destinations

当你要两台机器之间拷贝一些大文件的时候，把nc(netcat)和pigz(parallel gzip)组合起来会是一个简单和高效的选择。不过，如果要把这些文件同时分发到多台机器，有什么好法子吗？在Tumblr，这还算蛮常见的需求，比如我们要快速的同时增加几台MySQL Slave的时候。

你可以从源机器逐个拷贝到逐台目标机器，但是往往时间也是成倍的。或者你也可以同时从源机器同时拷贝到多个目标机器，但是受制于源机器的带宽等因素，速度并不见得真的很快。

还好，借助一些UNIX工具可以做的更好。把tee和FIFO组合起来，可以形成一个文件快速分发链：处于分发链中的每台机器会保存文件，同时还分发给它的下一环。

首先，选定一台目标机器做为分发链的最后一环，在这台机器上只需要用nc监听(假定端口是1234)，再通过管道由pigz解压缩，继续通过管道把数据交由tar来分解。

nc -l 1234 | pigz -d | tar xvf -

然后，再从分发链的末端往上走，设置其它目标机器，同样要经过监听、解压、分解，不过在解压之前我们通过tee命令将数据输出到命名管道(FIFO)，另外的一条shell管道会将这些未解压的数据同时分发到分发链的下一环：

mkfifo myfifo
nc hostname_of_next_box 1234 nc -l 1234 | tee myfifo | pigz -d | tar xvf -

最后，在源机器上启动分发链，让数据传输到分发链的第一环：

tar cv some_files | pigz | nc hostname_of_first_box 1234

在我的测试中，分发链中的每台机器大概损失了3%-10%的性能(相对于1对1的拷贝而言)，但是相对逐个逐个的拷贝或者单台机器向多台机器同时分发，效率提升是很明显的。

―

同分类推荐文章

从零重建 macOS 开发机：可复现的环境初始化流程（2026-06-14 20:36:00）
百度物理网络监控工具开源第二弹：毫秒级监控工具 baize，让你的网络问题无处遁形（2026-06-11 08:10:28）
How to Set Up Homebrew Tap for Private CLI Tools: A Complete Guide （2026-05-27 02:13:03）

查看更多 DevOps 文章 →

建议继续学习

工作的技术含量和程序员的个人价值（累计阅读 4,207）
使用scp命令在两台linux上对拷文件或者文件夹（累计阅读 3,882）
在Linux下使用ftp命令（累计阅读 3,812）
用pigz代替gzip （累计阅读 3,736）
php的ftp函数简单应用（累计阅读 3,346）
使用tar+lz4/pigz+ssh更快的数据传输（累计阅读 3,288）
Memcached的管理（累计阅读 3,257）
nc 传送文件（累计阅读 2,683）
shell 遍历mc （累计阅读 2,456）
Nc 的妙用（累计阅读 2,324）