标签：uniq

共 2 篇相关文章

IT 累计浏览 5,124

linux 处理两个文件的并集,交集,计数

这篇讲的是如何用Linux命令行，高效处理两个文本文件之间的集合关系。作者没有绕弯子，直接切入三个最实用的场景：取并集（合并两文件并去重）、取交集（找出两文件共有的行）、以及统计交集或并集的行数。核心操作围绕几个经典工具展开，比如用`sort`和`uniq`配合来处理并集去重，用`grep -F`或`awk`快速匹配交集。文章的价值在于，它不只是列出命令，而是把解决同一类问题的几种常用路径对比着讲清楚了。例如，处理小文件时`comm`命令很直观，但要求预先排序；而`awk`方案则更灵活，适合处理未排序或结构更复杂的数据。作者也点明了不同方法的适用边界：是追求极致速度，还是需要更复杂的条件筛选？这对于需要在脚本中快速实现这些操作的运维或开发人员来说，是一份非常实用的参考。掌握了这几招，再面对日志比对、配置差异分析或数据清洗时，就能多一份从容。

IT 累计浏览 5,114

sort命令分析日志

作者在最近的一篇博客中，分享了使用 sort 命令分析日志时一次典型的踩坑经历。具体来说，他在处理一个超过 50GB 的系统日志文件时，试图通过 sort 命令对日志按时间戳排序以快速定位异常事件，但遇到了严重的性能瓶颈——排序操作不仅耗时数小时，还导致系统负载飙升，甚至触发内存交换。问题的根因在于 sort 命令的默认行为：它倾向于将整个文件加载到内存中进行排序，对于这种超大文件，内存不足会迫使