观察一个用户是否比不观察更糟糕？

晓生语录 2014-04-07 22:46:43 累计浏览 2,762 次

本机暂存

内容概览

这篇文章探讨了一个可用性测试中常见的困惑：只观察少量用户，比如一两个，是否还不如不观察？作者从“眼见为实”这一常识出发，提出了一个有趣的悖论。

文章通过具体的概率模型和案例指出，如果只观察一个用户，调研人员有很大概率（例如20%）会遇到一个“异常”的用户，从而对产品性能得出严重偏离实际的结论。这确实可能比什么都不做更糟糕，因为它会带来误导性的信心。而引入“两个用户观察”或“三个用户破平局”的规则，则能显著提高结论的可靠性，比如观察三个用户可将评估精度提高约8个百分点。

文章用“问题矩阵”等数据进一步说明，仅观察一个用户的最大缺陷在于无法区分偶然问题与普遍问题。虽然只观察一个用户也能发现界面设计上的某些问题，但长期来看，这会使团队更聚焦于非典型问题而非那些影响面更广的常见问题。

因此，作者的核心观点是：尽管存在因样本小而得出片面结论的风险，但基于大数定律和概率，进行一些用户观察（哪怕是少量的）总体上仍比完全不观察要有价值，关键是团队需要理解这种小样本观察的不确定性，并努力争取观察更多的用户。

本文由江南大学设计学院研究生谭伊曼翻译，作者：Jeff Sauro，查看原文

眼见为实，观察是在研究用户与产品交互中极少数，比看那些专业的报告或者汇报更有说服力的一种方法。

但是，如果在一项可用性测试中，调研人员只有观察一个或两个用户的时间，那怎么办呢？在什么样的情况下，我们观察一些用户比一个都不观察更糟糕呢？

只观察一个比不观察更糟糕

试想一下，如果一个调研人员，如产品开发人员或设计人员，他们找到5个用户来进行测试，而这几个用户在使用这个产品时没有感到任何的疑惑和困难，他们便会错误地从这5个用户中得出结论：所有的用户在使用该产品时都没有问题，并会认为该产品已经很优秀了。

两个用户的模式

为了避免这种对单一用户调研而产生片面的结果，一些研究团队便制定了简单少数服从多数的规则，他们会问，或在某些情况下要求观察多个用户的使用阶段。如果调研人员只能观察一次，那么这比什么都不要观察糟糕的多。

如果所有可用性测试都是按照计划来进行，而其努力的结果与曲解是相一致的，那么你就会明白为什么要有这样的一个规则。至少有两个用户的话，你会看到不同的用户与软件的交互方式，也能更全面概括出用户行为是怎么样的。

三个用户打破平局

另一种我所见过的形式是观察的至少三个用户，而不是两个。两个用户可能会导致平局而无法决策，第三个用户会打破这个局面。至少这样可以适当避免先入为主的想法影响最终结论。

为什么一个优于无

我很同情那些研究人员，常常被领导用先入为主的观念而扭曲数据。所以不难理解这样的指导方针。然而,我也不愿意说观察一两个用户比什么都没做更糟糕。因为这涉及到一个概率的问题。

如下图中的表格，它分别代表可用性测试中的5个用户。白色方块代表那些有相似体验的用户，红色方块则代表一个曾经对产品有不同寻常体验（异常好或者坏）的用户。

调研人员会看到这个不同寻常的用户的概率是五分之一或者说20％。因此，在任何只有一个不同寻常的用户的研究中，就会有被误导的可能产生。

然而，大数定律告诉我们，随着时间的推移，更有可能的是，用研人员看见一个典型问题胜过非典型问题。下面这五个研究，每一组研究中都有五个用户。每一组研究中都有一个表示有差异的红色方块和四个一致体验的白色方块。

使用二项概率公式，一个调研人员会看到在所有五次观察中仅有的一个不同寻常用户的概率是0.03％。用研人员看在三个不寻常的体验的概率为6％。随着时间的推移，观察次数越多，更可能看到典型问题。

问题的发生

我们将讨论扩展到用户遇到的问题上。同样用概率的规则，让5个用户来揭示最明显的问题，也意味着只有一个用户观察到的问题，更可能会比那些不寻常的问题明显。也就是说，如果你看观察到有五分之一的用户有这一个问题，那么这个问题可能影响到的会是8.5倍，而不仅仅是在1％的用户中进行测试的只是在20％的用户。

唯一的问题

然而当涉及到问题的出现时，任何被测试的用户都会遇到许多问题，并且这取决于研究的类型，许多这些问题仅仅只能看到一次——尽管你测试了许多用户。例如，下面的网格显示的是有30个用户参与的一个可用性测试的问题矩阵。共有28问题被记录下来。其中，第9个问题（32％）只有一个用户遇到过。

仅仅观察一个用户的一个明显缺点是利益相关者无法区分唯一问题和较常见的问题。只有一个用户，那么得出的结论就将会是这些问题影响到所有用户。有两个或三个用户来测试的话，至少我们还能将这些唯一和冗余的问题区别开来。但是，我们不能过高的相信我们从那一两个，甚至三个用户中得到对该产品的认可。

小样本的不确定性

让第三个人成为制胜的关键是很有吸引力的想法(每个学校的孩子都知道)，实际上，不一定需要很多用户。例如，如果二分之一的用户有不好的体验，百分之九十我们可以认为可能在所有用户中有12%至88%都在遭受着这不好的体验。这个范围有百分之七十六的精确度。通过添加一个用户打破平衡的局面，我们可以有90%的信心认为这个问题将影响所有用户的25%至93%(68%的精密)。所以当我们观察的用户从2个变成3个时，我们已经提高了8百分点精度。尽管只有8个百分点，但两个范围仍然是很巨大的。

结论

当我说观察两三个用户比观察一个或者零个要好时，不代表观察两个或一个比一个都不观察要糟糕。观察一个用户意味着我们没有办法评估去用户与产品互动的许多不同的方式。观察更多的用户很重要，识别和解决可用性问题通常是同样重要的。

仅仅只观察一个单独的用户也测试出一些影响界面设计问题。随着时间的推移，如果调研人员在每个可用性研究中一直观察一个随机的用户，他们将会更关注那些不同寻常的问题，而不是那些常见的问题。在任何给定的样本研究中，他们总会有很好的概率被一个不寻常的体验所误导，随着时间的推移，甚至一次单独抽样都会将他们聚焦到最常见的问题上。

如果一个研究人员对数据的理解非常糟糕，我想，更多的调研也不过是会导致更多的对用户曲解罢了。因此，坚信多数胜过少数并没什么不好，我还是相信有一些用户调研总比没有的好。

同分类推荐文章

如何写好设计文档？（2026-06-23 08:00:00）
Designing With Uncertainty: How AI Supercharges Probabilistic Thinking （2026-06-16 23:00:00）
The Benefits Of Cognitive Inclusion In UX Research （2026-06-10 18:00:00）

查看更多设计文章 →

建议继续学习

十个最容易犯的用户体验错误及规避方案（累计阅读 79,500）
流程管理与用户研究（累计阅读 17,053）
网站导航设计的6大分类（累计阅读 9,298）
给想转行做产品经理的同学（累计阅读 6,927）
可用性测试好助手——Morae软件的应用（累计阅读 6,780）
可用性测试的权衡之道（二）（累计阅读 5,845）
互联网产品经理必读书目（累计阅读 5,841）
“预注册”是一把金钥匙（累计阅读 5,677）
忘记技术原理，关注用户心智（累计阅读 5,600）
界面设计速成（累计阅读 5,428）