awk 实例之二维数组

小小子，simaopig 2010-07-15 08:40:44 累计浏览 6,012 次

本机暂存

内容概览

这篇讲的是在awk缺乏原生二维数组支持的情况下，如何巧妙地模拟出多维数据处理能力。

作者从实际数据处理中的痛点出发——当需要按行和列两个维度（比如按部门和月份）对数据进行聚合统计时，awk的一维数组会显得捉襟见肘。文章给出的核心方案是利用awk的字符串键特性，通过自定义分隔符（比如使用OFS）将两个维度的键“拼接”成一个复合键来实现模拟。例如，用 `dept SUBSEP month` 的形式来创建一个虚拟的二维键。

在实现上，文章通过处理CSV格式的销售数据，具体展示了如何按“部门”和“月份”两个维度统计销售总额。示例清晰地呈现了从逐行读取、构建复合键到最终输出汇总结果的全过程，让读者能直观看到模拟二维数组的工作效果。

除了基本实现，作者还进一步讨论了这种模拟方法在性能上的考量与潜在陷阱，比如键字符串拼接的开销以及内存占用问题，并对比了其与通过外部工具（如sort+awk管道）处理大型数据集时的取舍。这不仅提供了一个实用技巧，也引导读者思考在awk的脚本世界里，如何灵活运用基础特性来突破功能限制，完成更复杂的任务。

由于 AWK 不支持二维数组，有时候使用起来还真不是那么得心应手。

这不，本次应用又遇到了难题，要是按照PHP的想法，仍然是用二维数组搞定，两层foreach一循环啥都完事了。可是不行啊，一个文件几十万行，用PHP去分析那不死的要多惨有多惨？

先来看一下日志结构，和原来一样，每行一条记录，用{SPR}分隔字段，第二个字段为游戏名，第四个字段为用户ID，现在要统计每个游戏的用户ID，且要消重，于是，困难来了。

以下是引用片段：
Jul 13 23:59:58  [info] {SPR}poker{SPR}20100713235958{SPR}39487249{SPR}S1{SPR}
Jul 13 23:59:58  [info] {SPR}dandan{SPR}20100713235958{SPR}40321910{SPR}S5{SPR}
Jul 13 23:59:58  [info] {SPR}dandan{SPR}20100713235958{SPR}45937395{SPR}S10{SPR}
Jul 13 23:59:58  [info] {SPR}dandan{SPR}20100713235958{SPR}46047210{SPR}S10{SPR}
Jul 13 23:59:58  [info] {SPR}dandan{SPR}20100713235958{SPR}46100689{SPR}S10{SPR}
Jul 13 23:59:58  [info] {SPR}mcsd{SPR}20100713235958{SPR}46144879{SPR}S22{SPR}
Jul 13 23:59:58  [info] {SPR}dandan{SPR}20100713235958{SPR}46193512{SPR}S10{SPR}
Jul 13 23:59:58  [info] {SPR}dandan{SPR}20100713235958{SPR}46249154{SPR}S9{SPR}
Jul 13 23:59:58  [info] {SPR}dandan{SPR}20100713235958{SPR}46311452{SPR}S10{SPR}
Jul 13 23:59:58  [info] {SPR}dandan{SPR}20100713235958{SPR}46361704{SPR}S10{SPR}
Jul 13 23:59:58  [info] {SPR}dandan{SPR}20100713235958{SPR}46401796{SPR}S10{SPR}
Jul 13 23:59:58  [info] {SPR}dandan{SPR}20100713235958{SPR}46412612{SPR}S10{SPR}
Jul 13 23:59:58  [info] {SPR}dfh{SPR}20100713235958{SPR}46414008{SPR}7{SPR}
Jul 13 23:59:58  [info] {SPR}dandan{SPR}20100713235958{SPR}6428766{SPR}S10{SPR}
Jul 13 23:59:59  [info] {SPR}mcsd{SPR}20100713235959{SPR}26810901{SPR}S1{SPR}
Jul 13 23:59:59  [info] {SPR}wulin{SPR}20100713235959{SPR}28006063{SPR}hero10.wan.360.cn{SPR}
Jul 13 23:59:59  [info] {SPR}dandan{SPR}20100713235959{SPR}29498036{SPR}S2{SPR}
Jul 13 23:59:59  [info] {SPR}dandan{SPR}20100713235959{SPR}30401399{SPR}S10{SPR}
Jul 13 23:59:59  [info] {SPR}plsm{SPR}20100713235959{SPR}33290378{SPR}S3{SPR}
Jul 13 23:59:59  [info] {SPR}wulin{SPR}20100713235959{SPR}35130674{SPR}hero14.wan.360.cn{SPR}
Jul 13 23:59:59  [info] {SPR}mcsd{SPR}20100713235959{SPR}35990716{SPR}S22{SPR}
Jul 13 23:59:59  [info] {SPR}dandan{SPR}20100713235959{SPR}39135264{SPR}S10{SPR}
Jul 13 23:59:59  [info] {SPR}dandan{SPR}20100713235959{SPR}39263733{SPR}S10{SPR}
Jul 13 23:59:59  [info] {SPR}dandan{SPR}20100713235959{SPR}45902989{SPR}S10{SPR}
Jul 13 23:59:59  [info] {SPR}dandan{SPR}20100713235959{SPR}46051567{SPR}S10{SPR}
Jul 13 23:59:59  [info] {SPR}dandan{SPR}20100713235959{SPR}46237264{SPR}S10{SPR}
Jul 13 23:59:59  [info] {SPR}dandan{SPR}20100713235959{SPR}46241464{SPR}S10{SPR}
Jul 13 23:59:59  [info] {SPR}dandan{SPR}20100713235959{SPR}46320919{SPR}S10{SPR}
Jul 13 23:59:59  [info] {SPR}dandan{SPR}20100713235959{SPR}46337146{SPR}S10{SPR}
Jul 13 23:59:59  [info] {SPR}dandan{SPR}20100713235959{SPR}46411556{SPR}S10{SPR}

绞尽脑汁，加上同事帮助，一共弄了两种实现方式，大家简单看一下

以下是引用片段：
#将字段按{SPR}分隔
BEGIN{FS="{SPR}";OFS="\t"}
{
        name=$2;
        #用三止运算符，将gamearr数组里KEY为游戏名，结果为换行符加上用户ID
        gamearr[name]=gamearr[name](gamearr[name]?"\n":"")$4;
}
END{
        #循环每个游戏
        for (name in gamearr)
        {
            #各个游戏对应的文件名
            filename = name".log";
            print gamearr[name] > filename;
        }
}

上面的是同事帮忙想的，下面是自己写的，见笑

以下是代码片段：
#将字段按{SPR}分隔
BEGIN{FS="{SPR}";OFS="\t";}
{
    #arrgame数组的KEY是游戏
    arrgame[$2]++;
    #gameqid数组的KEY是游戏,用户ID
    gameqid[$2,$4]++;
}
END{
    #循环每个游戏
    for(name in arrgame)
    {
        filename = name".log";
        for(qid in gameqid)
        {
            #将游戏名与用户ID分隔开，存放在qidarr数组中
            split(qid,qidarr,SUBSEP);
            if(name == qidarr[1]){
                print qidarr[2] > filename;
            }
        }
    }
}

解决问题的方法有很多，重要的是敢想，敢试。看来有时候人的大脑不运动的话，生起锈来比肌肉萎缩还吓人。

同分类推荐文章

等了十年的 Go 链式管道，终于来了：seq 让你像写 Scala 一样写 Go （2026-06-25 18:38:18）
Go 实验特性详解（2026-06-21 10:05:27）
amd64 微架构级别对 Go 程序性能提升多少？（2026-06-21 09:38:49）

查看更多后端文章 →

建议继续学习

28个Unix/Linux的命令行神器（累计阅读 16,789）
perl更新/修改/删除文本文件内容（累计阅读 10,646）
AWK 简明教程（累计阅读 9,365）
awk命令，实现文件的合并与拆分（累计阅读 7,060）
AWK介绍（累计阅读 6,707）
更快的IP库查找方法以及AWK中的二分查找（累计阅读 6,555）
Perl命令行常见用法及技巧（累计阅读 5,912）
正则表达式的与或非（累计阅读 5,868）
操作大文本，awk vs vim （累计阅读 5,091）
SED命令行脚本快速参考，AWK命令行脚本快速参考,perl命令行脚本快速参考（累计阅读 4,828）