数学之美：Reddit评论排名算法

标点符 2012-07-12 23:03:42 累计浏览 6,069 次

本机暂存

内容概览

这篇讲的是 Reddit 评论排名算法如何对社区讨论质量进行排序。作者指出，与之前探讨的文章/新闻排名算法不同，评论排序在逻辑上有着关键差异：一篇帖子的热度可能随时间衰减，但评论区的“最佳”答案，其价值评估往往与发布时间关系不大。

核心在于，评论排名算法更侧重内容的持久质量与社区即时反馈的结合。它不像文章榜单那样单纯依赖时间衰减函数，而是综合考量用户投票（赞成与反对）、评论发布时间、以及可能的子版块特定规则。这意味着，一条高质量的评论即使发布稍晚，也有机会通过快速获得的正向投票而被顶到前列，反之，早期但质量不佳的评论则会逐渐下沉。

这种机制旨在让最有见地、最受认可的讨论内容脱颖而出，从而优化阅读体验，鼓励深度交流而非简单的抢先回复。理解这一点，对于任何希望构建或运营在线社区的产品经理和技术开发者来说，都具有直接的参考价值。

上一篇文章介绍了Reddit的排名算法，今天继续上一篇文章，需要学习的是reddit的评论排名算法。与文章新闻类排名不同的事，评论类的算法可能发表时间没有什么关系。

目前很多网站采用的评论排名主要有两种，即绝对好评数(好评减去差评)和好评率(好评/总评)。这两种评价方式都存在很明显的缺陷，以下为事例：

A:好评550;　差评450

B:好评60；差评40

C:好评1；差评0

D:好评9，差评1

首先是A与B比较，A的绝对好评数是550-450=100，B的绝对好评数是60-40=20，从绝对好评数比较，A的排名应该在B的前面；A的好评率为550/(450+550)=55%，B的好评率为60/(40+60)=60%，从好评率来说B的排名要比A的排名好。

再来比较下C与D，从好评率出发，C的好评率为100%，而D的好评率为9/(1+9)=90%，单纯从数据上看D的排名要比C的排名落后。对于评论排名上述的方法是否是我们所需要的呢？这样的计算才能更好的体现评论价值？正确的排名算法应该是怎样的？

我们先做如下设定：

每个用户的投票都是独立事件。

用户只有两个选择，要么投好评，要么投差评。

如果投票总人数为n，其中好评为k，那么好评率p就等于k/n。

如果你熟悉统计学，可能已经看出来了，p服从一种统计分布，叫做“两项分布”(binomial distribution)。

p越大，就代表这个项目的好评比例越高，越应该排在前面。但是，p的可信性，取决于有多少人投票，如果样本太小，p就不可信。由于p服从”两项分布”，因此我们可以计算出p的置信区间。所谓“置信区间”，就是说，以某个概率而言，p会落在的那个区间。比如，某个产品的好评率是 80%，但是这个值不一定可信。根据统计学，我们只能说，有 95% 的把握可以断定，好评率在 75% 到 85% 之间，即置信区间是[75%， 85%]。

通过上面的分析，我们就可以推断出，如果要给一个评论进行排名，就需要考虑一下内容：

计算每个评论的”好评率”

计算每个”好评率”的置信区间(以 95% 的概率)。

根据置信区间的下限值，进行排名。这个值越大，排名就越高。

这样做的原理是，置信区间的宽窄与样本的数量有关。比如，A有 8 张赞成票，2张反对票；B有 80 张赞成票，20张反对票。这两个项目的赞成票比例都是 80%，但是B的置信区间(假定[75%， 85%])会比A(假定[70%， 90%])窄得多，因此B的置信区间的下限值(75%)会比A(70%)大，所以B应该排在A前面。

置信区间的实质，就是进行可信度的修正，弥补样本量过小的影响。如果样本多，就说明比较可信，不需要很大的修正，所以置信区间会比较窄，下限值会比较大；如果样本少，就说明不一定可信，必须进行较大的修正，所以置信区间会比较宽，下限值会比较小。

二项分布的置信区间有多种计算公式，最常见的是“正态区间”(Normal approximation interval)，教科书里几乎都是这种方法。但是，它只适用于样本较多的情况(np > 5 且 n (1 − p) > 5)，对于小样本，它的准确性很差。

1927年，美国数学家 Edwin Bidwell Wilson 提出了一个修正公式，被称为“威尔逊区间”，很好地解决了小样本的准确性问题。Reddit 目前使用的是评论算法就是基于威尔逊得分区间 (Wilson score interval)。具体代码片段可从开放的源代码中找到，将其转化成Python代码后：

from math import sqrt

def _confidence(ups, downs):
    n = ups + downs

    if n == 0:
        return 0

    z = 1.0 #1.0 = 85%, 1.6 = 95%
    phat = float(ups) / n
    return (phat+z*z/(2*n)-z*sqrt((phat*(1-phat)+z*z/(4*n))/n))/(1+z*z/n)

def confidence(ups, downs):
    if ups + downs == 0:
        return 0
    else:
        return _confidence(ups, downs)

使用到的威尔逊得分区间具体公式如下：

原图已失效

其中

p 是好评率

n 是总投票数

Z (1-α/2) 表示对应某个置信水平的z统计量，这是一个常数，可以通过查表得到。一般情况下，在 95% 的置信水平下，z统计量的值为1.96。

可以公式看到，当n的值足够大时，这个下限值会趋向原图已失效。如果n非常小(投票人很少)，这个下限值会大大小于

。实际上，起到了降低”好评率”的作用，使得该评论的得分变小、排名下降。

威尔逊得分区并不关心一个评论的投票数，而关心好评数和投票总数或采样大小的相对关系！

原图已失效

上图是根据威尔逊得分区计算出来的值：一个评论有1个好评，没有差评，它的支持率是100%，但是由于数据量过小，系统还是会把它放到底部。但如果，它有10个好评，1个差评，系统可能会有足够的信息把他放到一个有着40个好评，20个差评的评论之前。因为我们基本确认当它有了40个好评的时候，它收到的差评会少于20个。最好的一点是，一旦这个算法出错了(算法有15%的失效概率)，它会很快拿到更多的数据，因为它被排到了前面。

威尔逊得分区间不仅仅用于评论排名，它还试用于以下情景：

垃圾邮件检测：看到这个内容并将它标记成垃圾邮件的百分比有多少？

创建精华列表：看到这个内容并将它加星标件的百分比有多少？

创建最受欢应列表：看到这个内容并将它转发给朋友的百分比有多少？

说了那么多，再来看看威尔逊得分区间的缺点，从上面的分析中也很容易发现问题，即排行榜前列总是那些票数最多的项目，新项目或者冷门的项目，很难有出头机会。

参考文章：

http://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Wilson_score_interval

http://blog.reddit.com/2009/10/reddits-new-comment-sorting-system.html

http://www.evanmiller.org/how-not-to-sort-by-average-rating.html

同分类推荐文章

对基本有序的序列排序算法（2026-06-11 17:46:49）
Four Levels Of Customer Understanding （2026-05-22 21:00:00）
除法的意义（2026-04-12 20:52:17）

查看更多算法文章 →

建议继续学习

数学之美：StackOverflow问答排名算法（累计阅读 11,490）
数据分析中常用的数据模型（累计阅读 8,034）
Hacker News 排名算法工作原理（累计阅读 7,582）
Kindle 电子书生成工具（累计阅读 5,198）
净推荐值（NPS）系列之一——基本原理与操作模型（累计阅读 4,761）
房租分配问题（累计阅读 4,612）
实时排名，其实很简单（累计阅读 4,564）
服务器日志网站分析的原理及优缺点（累计阅读 4,270）
面试题：火车运煤问题（累计阅读 4,145）
基于管道模式的容器设计（累计阅读 3,443）