IT技术博客大学习 共学习 共进步

网络数据的背后――网络日志的分析指标

腾讯CDC 2011-06-01 13:38:18 浏览 3,042 次

      常用的定量分析是问卷调查,这可以收集到用户对产品的主观反馈,它的结果受问卷题目的影响,不能完全客观地反映用户如何使用产品,他们在实际环境中遇到了哪些问题。而针对网站的定量分析,网络服务器的日志文件能真实反映用户的当前体验,解释行为的深层特点,能够更有效地改进产品。

      网络日志可以帮我们回答很多问题,比如用户在什么时间段浏览网站;对网站的什么板块比较感兴趣;是怎样了解到网站;多少用户会转成重复用户;在网站上找到兴趣点的路径是什么;应该怎样优化使用过程,提高用户体验,等等。要系统地分析日志,得到有价值的用户反馈,主要考虑聚合度量、基于会话的统计、基于用户的统计和点击流分析四方面。

     1. 聚合度量

      可以理解为将大量网站数据进行合并分析。下面结合某旅游论坛的日志数据说明常用的聚合度量指标。特别说明一下,本论坛纯属虚构,数据也是为了说明概念虚构的。

    (1)网站的浏览量。

      同时间段的浏览量比较,可以得出用户关注度的变化趋势。图1显示了某旅游论坛2008年6月至2010年12月浏览量变化情况,其中09年6月左右浏览量骤然上升,09年12月逐渐趋于平缓,曲线的变化可能与论坛的营销手段、设计等有关,因此能见证采取措施带来的效果。

    

     图1 某旅游论坛的浏览量

    (2)一天内各时间段浏览量的分布。

      从图2可以判断用户主要在休息时间浏览该论坛,因此论坛应当突出休闲轻松的内容。

    

    图2 某旅游论坛一天内各时间段的浏览量

    (3)网站各板块的浏览分布。

      可以分析具体板块、单个页面、同类页面组的浏览分布情况,判断用户的兴趣点。图3说明论坛用户主要对东南亚、日本比较感兴趣。

    

    图3 该论坛国外旅游版的浏览比例

    (4)操作系统和浏览器比例。

      方便网站更好的适应操作系统和浏览器。图4显示用户使用的操作系统以windows为主;图5表明浏览器中IE占多半比例,Firefox和Chrome的用户量也比较大。因此设计或改版时,需要重点满足windows模式,显示效果主要保证IE、Firefox和Chrome的兼容性。

    

    图4 该论坛用户使用操作系统的比例

    

     图5 该论坛用户使用浏览器的比例

    (5)推荐链接网站。

      即打开网页前,用户浏览的上一个网页。了解推荐链接网站,便于知道用户怎样进入网站,了解使用的情境。用该论坛举例,有近30%的用户是从搜索引擎进入网站,约60%则是从收藏或者地址栏输入直接进入论坛,这就说明用户忠诚度比较高,已经有了相对稳定的用户群。

    (6)搜索引擎推荐和关键词。

      如果推荐链接来自搜索引擎,其中含有的关键词能帮助确定关键词的营销方案;如果是网站内部搜索的关键词,则更有助于向用户推荐内容。例如该旅游论坛内部搜索的热门关键词是“攻略”、“自驾”、“蜜月”、“海南”和“五一”,用户关注什么,这方面就需要多多提供参考。

    2. 基于会话的统计

      会话是指通过链接与网站进行的信息交互。

    (1)每次会话的平均访问的页面量。

      典型会话可以说明用户访问网站的广度。例如搜索类网站广度较小,用户的目的是查找信息,达到目标后就会终止,所以支持这个主要任务需要的页面较少,框架简单。但如果是电子商务类网站,使用目的是浏览、完成交易,过程复杂,访问页自然较多,因此需要不同的指引支持整个过程。

    (2)会话平均的持续时间。

      从持续时间的长短,能判断用户的兴趣点;也可以判断出哪些是过渡页,哪些是内容页。图6是查询北京周边旅游景点的过程,小框的内容是这步查看的页面和查看的时长。从时长可以判断出列表页和当地旅游版属于过渡页面,但同样是过渡页,两者耗费的时间不同,这种现象也许是因为没有明显的推荐景点入口,因此查找时间较长。

    

    

    图6 查询北京周边旅游景点攻略的过程

    3. 基于用户的统计

      主要利用cookie(网站储存在用户本地终端上的数据)得到。

    (1)访问次数。

      主要用来衡量用户的忠诚度和对网站的信任度,相对而言访问次数与这两者成正比。

    (2)访问频率。

      可以用来决定网站内容的更新频率。图7显示了上述旅游论坛某三个版块的更新与访问频率的统计情况,第一个版更新太慢,可以通过访谈得到用户想要的信息,增加更新频率;第二版更新与访问同步,发布的信息能让用户尽量接受;第三版更新太快,很多内容被埋没,是吃力不讨好的做法。

    图7 旅游论坛某三个版块的更新与访问频率

    (4)保留率。

      是某时间段回访的用户数与该时间段总用户数的比值,时间段的长短需要根据网站本身的定位决定。还是用旅游论坛说明,用户一般会在旅行前一个月内查询旅游的相关信息,因此可以考虑以月为间隔统计保留率。如图8所示,该论坛保留用户的能力稳定。

    图8 该旅游论坛2010年用户的保留率

    (5)转换率。

      转换率等于进入下一页的用户与浏览当前页用户的比例。从下表可以看出用户从旅游版面的列表打开贴子的用户较少,回复贴子的比例也很低,因此可以向用户推荐有价值的贴,同时考虑增加回帖的激励措施。

    

    4. 点击流分析

      即分析得到用户是如何使用网站的。

      路径分析。从论坛的查找景点攻略的目的,是快速了解目标景点的信息,目前的过程可以精简为图9所示的关键路径。因此可以考虑是否把图6中的过渡页“首页列表”设计为论坛的侧边栏。同时像“八达岭”、“秦皇岛”、“海河”等属于关注度高的景点,因此可以考虑将热点景点的链接直接呈现在列表中,将旅游版面这一过渡页也省略。

    图9 查询景点攻略的过程

      上面提到的各个指标都是单独呈现的,有时需要结合多个指标综合考虑。例如可以利用基于会话统计中的平均持续时间、平均访问页面,以及基于用户统计的访问次数、访问频率等分析用户的忠诚度,这里就不详细阐述了。

      网站日志分析主要能得出用户在网站上做什么,怎样做,但为什么做需要通过访谈、焦点小组、可用性测试再进一步了解。

      上面是在学习网站日志分析时整理的比较有用的资料,相对浅显,更深入的研究希望可以随时交流~

      参考资料:Kuniavsky, M. (2003). Observing the user experience: a practitioner’s guide to user research. San Francisco,CA: Morgan Kaufmann.

建议继续学习

  1. 数据分析中常用的数据模型 (阅读 7,703)
  2. 五个免费开源的数据挖掘软件 (阅读 6,342)
  3. 谈谈与数据打交道的工作 (阅读 5,223)
  4. 页面停留时间和网站停留时间详解 (阅读 5,044)
  5. 如何对统计数据进行分析 (阅读 4,982)
  6. 音乐智能推荐 (阅读 4,225)
  7. 浅析十三种常用的数据挖掘的技术 (阅读 4,204)
  8. 使用Weka进行数据挖掘 (阅读 4,123)
  9. WEB数据挖掘相关术语整理 (阅读 3,443)
  10. 如何萃取海量数据的价值 (阅读 3,283)