server日志的路径分析

数据抓取 2014-12-29 00:07:57 累计浏览 11,239 次

本机暂存

内容概览

这篇讲的是如何通过分析Web服务器日志中的路径信息，理解用户访问行为。作者从日常遇到的疑问出发——有人误以为服务器日志来自数据库，借此清晰界定了服务器日志的本质：它是客户端与服务器间所有通信（包括IP、时间、访问路径、状态等）的忠实记录。

文章以Nginx日志为例，逐条拆解了其看似杂乱的格式，对应到日志字段如请求URL、状态码等。核心在于，作者分享了利用Shell命令（awk和sed）从海量日志中提取、清洗并统计访问路径的实战过程。具体来说，通过awk按分隔符切割出URL字段，再结合sort和uniq进行排序计数，最终形成每个路径的访问次数统计。整个分析链条从原始日志文件到生成结构化的路径统计表，步骤清晰。

为了让结果更直观，作者还将统计输出为表格和图表形式，并强调了数据可视化在提升分析体验和洞察效果上的关键作用。整个分享聚焦于“如何做”，是一次从原始数据到可视化结论的完整实践演示。

什么是路径分析：
通过对日志文件中目录结构的分析，并统计每个目录出现的次数，最终形成次序的路径数量统计。

web服务器包括很多，iis，apache，nginx等等。首先要搞清楚什么是服务器日志，因为今天小伙伴问我，日志是什么来的，是不是从数据库中来的？我想很多不懂技术的人对这个都不是很清楚，他是搞数据分析的，自然对技术不了解。

服务器日志：客户端（网页，手机端，其他移动端等等）与服务器进行的任何通信，都会被记录记录下来，包括：时间，客户端类型，访问来源，ip地址，访问状态。

例如下面的web service nginx的日志

118.186.156.230 - - [11/Jul/2014:13:20:07 +0800] “POST /business/checkMemberRank HTTP/1.1″ 200 14 “http://oppor.99114.co m/oftenCate/skipProsupplyBasic?code=121105103&category=%25E5%25AE%25B6%25E7%2594%25A8%25E7%2594%25B5%25E5%2599%25A8%2520 %253E%2520%25E5%25AE%25B6%25E7%2594%25B5%2520%253E%2520%25E7%25A9%25BA%25E6%25B0%2594%25E5%2587%2580%25E5%258C%2596%25E5 %2599%25A8%25E3%2580%2581%25E6%25B0%25A7%25E6%25B0%2594%25E6%259C%25BA” “Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5 .1; Trident/4.0)” -

上面看上去很乱，其实是有规则的，如下：

log_format access ‘$remote_addr - $remote_user [$time_local] “$request” ‘‘$status $body_bytes_sent “$http_referer” ‘‘”$http_user_agent” $http_x_forwarded_for’;

其中，各个字段的含义如下：

1.$remote_addr 与$http_x_forwarded_for 用以记录客户端的ip地址；
2.$remote_user ：用来记录客户端用户名称；
3.$time_local ：用来记录访问时间与时区；
4.$request ：用来记录请求的url与http协议；
5.$status ：用来记录请求状态；成功是200，
6.$body_bytes_s ent ：记录发送给客户端文件主体内容大小；
7.$http_referer ：用来记录从那个页面链接访问过来的；
8.$http_user_agent ：记录客户端浏览器的相关信息；

既然日志文件本身是有规则的，那么问题来了，到底如何来分析日志呢？

其实方法有很多，不过我用的是sell的 awk和sed，awk是竖向的对数据进行分割，而sed是横向分割。下面是我写的一段代码，也是核心分割部分

for ii in $(ls /data/logs/$i/ -u1 |sed -n 1p)
    do
    echo /data/logs/$i/$ii  
 
    name=`echo $ii|awk -F '.' '{print $1}'`
    date=`echo $ii|awk -F '.' '{print $4}'`
 
    tar xvf /data/logs/$i/$ii -C /root/outdata/
    mv /root/outdata/* /root/outdata/data.log   
 
    awk ' $9 != 444 &amp;&amp; $9 != 404 {print $4 "`" $1 "`" $7 "`" $11}' /root/outdata/data.log |grep -v -E '.js|.gif|.ico|.css|.jpg|.png' &gt;out.log
    sed -i 's/20[0-9][0-9]:/2014 /g' out.log
    sed -i "s/\"//g" out.log
    sed -i 's/\[//g' out.log
 
    month=`date +%b --date="-1 day"`
    day=`date +%d --date="-1 day"`
         
    #request ur
    awk -F '`' '{print $3}' out.log |sort |uniq -c |sort -rn|sed 's/^[ \t]*//'&gt;/root/shell/request/$name-$date.txt

awk负责分割，也是可以进行统计的，所以就可以对文件路劲进行统计，计算每次产生的次数，总是是各种循环了。最后形成一个路径的统计数据。

为了更好的查看，我做成了表格和图装两种形式，参考一下demo版本吧 www.webmapdata.com 至于数据可视化方面的东西，也是要好好做的，体验很重要，这对数据分析的结果也是非常重要的，对于可视化这块下次再聊喽，到此为止。

同分类推荐文章

等了十年的 Go 链式管道，终于来了：seq 让你像写 Scala 一样写 Go （2026-06-25 18:38:18）
Go 实验特性详解（2026-06-21 10:05:27）
amd64 微架构级别对 Go 程序性能提升多少？（2026-06-21 09:38:49）

查看更多后端文章 →

建议继续学习

配置Nginx＋uwsgi更方便地部署python应用（累计阅读 107,164）
搜狐闪电邮箱的 Nginx/Postfix 使用模式（累计阅读 33,895）
记录一个软中断问题（累计阅读 16,953）
解析nginx负载均衡（累计阅读 16,622）
在Apache2.2.XX下安装Mod-myvhost模块（累计阅读 13,056）
Nginx模块开发入门（累计阅读 11,168）
检查nginx配置，重载配置以及重启的方法（累计阅读 10,895）
Cacti 添加 Nginx 监控（累计阅读 10,641）
fsockopen 异步处理（累计阅读 10,341）
使用Squid缓存视频（累计阅读 10,336）