网站日志分析方法系列一：聚焦式分析

阿里巴巴（中文站）用户体验设计部博客 2011-02-09 00:20:06 累计浏览 2,670 次

本机暂存

内容概览

这篇讲的是如何用“聚焦式分析”来回答运营中最实际的页面价值问题。文章从设计师和运营同事的常见困惑出发：一个页面改版后，它到底带来了多少用户后续访问？是否促成了交易？用户最终去了哪里？

作者提出的解法是，围绕特定页面进行日志的“聚焦”挖掘。具体来说，就是先确定一个分析锚点（比如首页某个新入口），然后从海量日志中筛选出所有访问了该页面的用户会话。接着，追踪这些用户接下来的点击流路径，量化他们访问的商品页数量、停留时长，并最终检查是否形成了订单转化。这种方法避免了泛泛的全站分析，像用显微镜一样，能清晰还原出特定页面在整个用户旅程中的真实作用。

通过这种方式，团队可以拿到确凿的数据，判断一个页面是高效的“枢纽”还是无效的“死胡同”，从而让后续的改版和资源投放有据可依。

在网页运营改版过程中，经常有设计师或者运营同事有这样的疑问：我的页面到底产生了多大价值？这个页面引导的用户接下来访问了多少商品的页面？有没有产生交易？有没有到我想让用户去的那些页面？

如果使用数据库查询，固然可以得到一些结果，但查询过程过于复杂，数据量大的网站查询耗时太长，很难灵活应用到普通页面。本文提出一种相对简单的分析方法可以解决这个问题。

每个用户在网站上的访问轨迹在网站日志或者数据库中，都是一串URL，有的只访问了一两步，有的访问了成百上千步，如何在如此复杂繁多的数据中找到用户在访问某个页面(例如服装首页)之前或者之后n步，有多少人访问过特定页面(例如交易页面)？

先抛开这个问题，我们想象这样一个场景：在一个大会场中，熟人坐在某个座位上，如果我们知道他们的位置，我们的眼睛很容易聚焦到这几个位置，自动忽略其他座位的人，请参看图1。同样，人们在观察周围事物时，经常会把精力聚焦到自己关心的事物上，下意识忽略其他。我们曾经做过这样的实验，我们的报告厅有4个很大的外置式扩音器，分列在两侧。注意不是那种不显眼的内置式，任何人只要稍微留心就会看到。而当我们要求会场的人闭上眼睛回答会场有几个扩音器时，很少有人能给出正确答案，因为大部分人会关心更重要的东西，比如会议内容，提问问题，甚至是如何找个舒适的位子也比扩音器的多少更让人关心。

图1

回到我们网站碰到的问题，某个项目的设计师关心的页面并非全部，而只是几个与之页面有关的页面和部分重要的指标页面。因此我们可以去除相关性不大的页面，只保留关心页面，从而缩短用户路径，大大提高计算效率。

另外，我们把索引的思想引入分析过程中，把网页的URL按照一定规则(例如正则表达式)替换成简单字符，把相关性不大的页面统计替换为同一个字符(例如“0”)，把一些过渡性的页面替换成某个字符(例如”p”)，如此以来，每个用户的访问路径就可以表示为一个字符串，例如”a,c,0,0,0,a,p,p,c,0,c,d,0,0,0”。也有的用户的访问路径全为相关性不大的页面，此时，路径为”0,0,0,0,0,0,0,0,0,0,0,0,0,0”，这表示用户并未访问到目标页面，如果不需要计算用户比例或用户分类，那么这样的记录我们可以删除掉。

如果需要保留其他的用户信息，例如cookieid，登录名，访问时间等信息，这个字符串会更加复杂些。如果我们研究目的比较简单，还可以进一步处理，如果不需要对步长信息进行分析，我们可以去掉相邻重复的一些数据，把上式简化为” a,c,0,a,p,c,0,c,t,0”。

这个过程请参看图2中的①和②，由此我们可以得到多个用户的路径的字符串形式的文件。

图2

得到这个聚焦式用户路径文件后，我们就可以对这个字符串文件进行分析了。例如，我们需要计算a页面后有多少个c页面，需要能忽略中间的翻页页面(p页面)。在上例中的这个用户的字符串中，就是1个用户，2次c页面。如果在访问了其他页面之后再访问c页面的行为也可计算入内的话，那就是1个用户，3次c页面。

接下来就是分析的样本量问题。一般分析过程中会讲究“多而全”，但数据量大到一定级别，分析1/10甚至1/100人群与分析全样本所得到的结果相差无几，花费很多资源去提升一点精确度是一件很得不偿失的事情。因此可以酌情分析小样本量，节省分析成本。

由于目标页面业务的独特性，每次需要分析的方式也很个性化。路径查询器可以灵活应对各种查询。例如，我们需要计算a后面有t的人次，a后面紧跟着c的人次，行为符合某种模式的用户数有多少等等。需要统计的模式在分析算法配置文件(图2中的③)中进行配置，查询器会计算并导出最终结果。

另外，查询器还支持分类信息查询，根据用户路径文件的配置信息，对每种分类的人群分别查询，或者导出符合某种模式的人群Cookieid，用户名等，与其他数据存储媒介联接，取得这部分人群的其他信息，从而进行综合分析。

这种方法优点在于比较灵活，如果网站的URL规则比较规范，在配置过程中可以多采用正则表达式，从而可以发现更多有趣的现象。

同分类推荐文章

从零重建 macOS 开发机：可复现的环境初始化流程（2026-06-14 20:36:00）
百度物理网络监控工具开源第二弹：毫秒级监控工具 baize，让你的网络问题无处遁形（2026-06-11 08:10:28）
How to Set Up Homebrew Tap for Private CLI Tools: A Complete Guide （2026-05-27 02:13:03）

查看更多 DevOps 文章 →

建议继续学习

用Hyer来进行网站的抓取（累计阅读 158,251）
配置Nginx＋uwsgi更方便地部署python应用（累计阅读 107,164）
MySQL数据库在实际应用一些方面的介绍（累计阅读 36,399）
程序员技术练级攻略（累计阅读 35,471）
python实现自动登录discuz论坛（累计阅读 32,834）
python编程细节──遍历dict的两种方法比较（累计阅读 20,371）
每个程序员都应该学习使用Python或Ruby （累计阅读 17,918）
Chrome和goagent的配置方法，你懂的（累计阅读 16,843）
如何查找消耗资源较大的SQL （累计阅读 15,211）
30分钟3300%性能提升――python+memcached网页优化小记（累计阅读 13,742）