fio配合cgroup测试存储设备IOPS分配

Erlang非业余研究 2011-12-28 23:35:31 累计浏览 3,151 次

本机暂存

标签 cgroup fio IOPS

内容概览

这篇讲的是在多服务共享的高性能存储服务器上，如何用测试工具为每个服务“划分”出公平的IOPS资源配额。

作者从当下一个普遍现象出发：随着PCIe等高速存储设备普及，单台服务器的IOPS能力动辄十几万，远超单个应用所需。这虽然提升了资源利用率，却也带来了新问题——当多个服务共存时，如何避免某个“贪心”的应用占满存储带宽，从而保障其他服务的性能稳定？

为了解决这个服务质量（QoS）问题，文章给出了一套实测方案。核心是利用fio模拟应用的存储负载，并结合Linux内核的cgroup机制进行资源控制。作者具体演示了如何配置cgroup规则来限制特定进程组的IOPS上限，并用fio在这些受限的cgroup中运行测试，验证流量是否被有效隔离。

通过这种“主动施压+精确限制”的组合测试，我们可以在服务上线前，就直观地量化和规划出每个业务能获得的存储资源份额，为构建稳定、可预期的多服务环境打下基础。

随着包括存储设备在内服务器的能力越来越高，特别是用上了PCIe存储卡后，IOPS能力通常有10几万，马上过剩。在这种情况下，一台服务器可以干很多事情，在上面跑很多服务。那么如何保证系统的服务质量是个很重要的事情了。

我们在下来的的项目中倾向于用cgroup来做资源的隔离和限制，原因是cgroup的开销很小，而且很易用。cgroup 可以参考这里

我们特别关心cgroup的blkio子模块，他有2种限制模式:

1. throttle，限制每个进程能使用的IOPS或者吞吐量。

2. weight，现在每个进程能使用的IOPS的能力的比例，必须通过CFQ调度器来实现。

要使用blkio的weight限制需要注意几个事情：

1. 必须走directio, 如果buffered io因为最终写IO的进程不是发起IO的进程，结果会有很大的偏差。

2. 调度器必须是CFQ。

3. 测试工具必须支持cgroup的相关限制。

新版本的支持cgroup的fio可以在这里下载 git clone git://git.kernel.dk/fio.git，更多参看这里。

man fio 可以看看cgroup相关的文档:

cgroup=str

Add job to this control group. If it doesn’t exist, it will be created. The system must have a mounted cgroup blkio mount

point for this to work. If your system doesn’t have it mounted, you can do so with:

# mount -t cgroup -o blkio none /cgroup

cgroup_weight=int

Set the weight of the cgroup to this value. See the documentation that comes with the kernel, allowed values are in the

range of 100..1000.

cgroup_nodelete=bool

Normally fio will delete the cgroups it has created after the job completion. To override this behavior and to leave

cgroups around after the job completion, set cgroup_nodelete=1. This can be useful if one wants to inspect various cgroup

files after job completion. Default: false

这里只是粗粗演示下如何用fio按照比例来限制进程使用的IO, 我们来构造下场景：

我们在创建2个1g大小的文件，进行随机的混合读写，一个给500的比例，一个给100的比例，总的比例是1000。那么理论上可以看到A进程可以得到多于B进程5倍的IO能力。

操作如下：

$ cat test.fio
[global]
bs=4k
ioengine=libaio
iodepth=32
direct=1
rw=randrw
rwmixread=90
time_based
runtime=180
cgroup_nodelete=1

[test1]
filename=test1.dat
size=1G
cgroup_weight=500
cgroup=test1

[test2]
filename=test2.dat
size=1G
cgroup_weight=100
cgroup=test2

$ sudo fio test.fio
test1: (g=0): rw=randrw, bs=4K-4K/4K-4K, ioengine=libaio, iodepth=32
test2: (g=0): rw=randrw, bs=4K-4K/4K-4K, ioengine=libaio, iodepth=32
fio 2.0
Starting 2 processes
Jobs: 2 (f=2): [mm] [5.5% done] [618K/90K /s] [151 /22  iops] [eta 02m:51s]
...

我们从另外一个终端可以看到IO能力的分配情况：

差不多是5:1的比例，符合预期。

我们在使用的时候会担心kernel的稳定性，所以用fio能够大压力，长时间的来测试cgroup模块的可靠性，收集数据作为应用的参考。

同分类推荐文章

从零重建 macOS 开发机：可复现的环境初始化流程（2026-06-14 20:36:00）
百度物理网络监控工具开源第二弹：毫秒级监控工具 baize，让你的网络问题无处遁形（2026-06-11 08:10:28）
How to Set Up Homebrew Tap for Private CLI Tools: A Complete Guide （2026-05-27 02:13:03）

查看更多 DevOps 文章 →

建议继续学习

NFS随机IOPS性能不高的分析（累计阅读 4,782）
Fio压测工具和io队列深度理解和误区（累计阅读 4,283）
Linux的IO调度器-CFQ （累计阅读 3,969）
ulimit -t 引起的kill血案（累计阅读 3,928）
我对存储的一些认识（累计阅读 3,891）
SSD 想说爱你不容易（累计阅读 3,482）
一个使用PC服务器的高可用性方案介绍（累计阅读 2,983）
数据的存储介质-固态存储SSD （累计阅读 2,939）
存储设备的革命性产品：ioDrive （累计阅读 2,486）