IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

聚类分析在用户分类中的应用

网易用户体验设计中心博客 2010-10-25 23:43:59 累计浏览 1,963 次
本机暂存

    原图已失效

    什么是聚类分析?

    聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较组间对象相似性较。在用户研究中,很多问题可以借助聚类分析来解决,比如,网站的信息分类问题、网页的点击行为关联性问题以及用户分类问题等等。其中,用户分类是最常见的情况。

    聚类分析的基本过程是怎样的?

选择聚类变量聚类分析找出各类用户的重要特征聚类解释&命名

    || 选择聚类变量

    在设计问卷的时候,我们会根据一定的假设,尽可能选取对产品使用行为有影响的变量,这些变量一般包含与产品密切相关的用户态度、观点、行为。但是,聚类分析过程对用于聚类的变量还有一定的要求:

这些变量在不同研究对象上的值具有明显差异;这些变量之间不能存在高度相关。

    因为,首先,用于聚类的变量数目不是越多越好,没有明显差异的变量对聚类没有起到实质意义,而且可能使结果产生偏差;其次,高度相关的变量相当于给这些变量进行了加权,等于放大了某方面因素对用户分类的作用。

    识别合适的聚类变量的方法:

对变量做聚类分析,从聚得的各类中挑选出一个有代表性的变量;做主成份分析或因子分析,产生新的变量作为聚类变量。

    || 聚类分析

    相对于聚类前的准备工作,真正的执行过程显得异常简单。数据准备好后,丢到统计软件(通常是spss)里面跑一下,结果就出来了。

    这里面遇到的一个问题是,把用户分成多少类合适?通常,可以结合几个标准综合判断:原图已失效

看拐点(层次聚类会出来聚合系数图,如右图,一般选择拐点附近的几个类别)凭经验或产品特性判断(不同产品的用户差异性也不同)在逻辑上能够清楚地解释

    || 找出各类用户的重要特征

    确定一种分类方案之后,接下来,我们需要返回观察各类别用户在各个变量上的表现。根据差异检验的结果,我们以颜色区分出不同类用户在这项指标上的水平高低。如下图,红色代表“远远高于平均水平”,黄色代表“平均水平”,蓝色代表“远远低于平均水平”。其他变量以此类推。最后,我们会发现不同类别用户有别于其他类别用户的重要特征。

    原图已失效

    || 聚类解释&命名

    在理解和解释用户分类时,最好可以结合更多的数据,例如,人口统计学数据、功能偏好数据等等(如下图)……最后,选取每一类别最明显的几个特征为其命名,就大功告成啦!

    原图已失效

    参考资料:

    http://www.redshiftresearch.co.uk/ImageLibrary/Cluster%20Analysis.pdf

    《社会统计分析方法――spss软件应用》

同分类推荐文章

  1. 科技爱好者周刊(第 398 期):Token 费用难以负担 (2026-05-29 08:08:39)
  2. AI Agent Orchestrator Landscape Report (2026-05-27 01:44:36)
  3. 了解 Claude Code 的提示词工程 (2026-05-22 23:25:23)

查看更多 AI 文章 →

建议继续学习

  1. 数学之美:StackOverflow问答排名算法 (累计阅读 11,340)
  2. 基于用户行为分析的搜索引擎自动性能评价 (累计阅读 5,684)
  3. 皮尔逊积矩相关系数的学习 (累计阅读 5,521)
  4. 净推荐值(NPS)系列之一——基本原理与操作模型 (累计阅读 4,664)
  5. 浅析十三种常用的数据挖掘的技术 (累计阅读 4,241)
  6. 一维数组的聚类 (累计阅读 3,584)
  7. 分布式系统设计系列 -- 基本原理及高可用策略 (累计阅读 3,581)
  8. 如何准确看清用户需求? (累计阅读 3,502)
  9. 网站分析常用英语名词速览 (累计阅读 3,301)
  10. 聚类算法之ISODATA (累计阅读 3,261)