IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

IMDB评分排名算法

标点符 2010-09-28 09:26:27 累计浏览 5,724 次
本机暂存

    IMDB网站是目前互联网上最为权威、系统、全面的电影资料网站,里面包括了几乎所有的电影,以及1982 年以后的电视剧集。IMDB的资料中包括了影片的众多信息,演员,片长,内容介绍,分级 ,评论等,就个人买碟而言,很大程度上也是参考IMDB的得分。 它所特有的电影评分系统深受影迷的欢迎,注册的用户可以给任何一部影片打分并加以评述,而网站又会根据影片所得平均分、选票的数目等计算得出影片的加权平均分并以此进行TOP250(最佳250部影片)和Bottom100(最差100部影片)的排行。由于影片资料的更新和所得评分的不断变化,TOP250和Bottom100必定是份动态的名单,但大部分出色(或者说是受大众欢迎的)影片的位置会相对不变,于是这份TOP榜单也就有了窥视大众电影口味的意义。评选最佳250部电影时只考虑正式的投票者的投票结果。分值系统采用10分制,最低为awful(令人厌恶)的1分,最高为excellent(出类拔萃)的10分。值得注意的是,虽然很多影片在资料系统中得分很高,但由于未能达到TOP所要求的最低1250张的投票数而无法参加排行。因此,很多曲高和寡(至少在美国)的优秀影片未能列入其中。尽管如此,这份名单对选看影片仍具有重要的参考价值。

    根据IMDB网站上公布的TOP250评分标准:

    imdb top 250用的是贝叶斯统计的算法得出的加权分(Weighted Rank-WR),公式如下:

    weighted rank (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C

    其中:

    R = average for the movie (mean) = (Rating) (是用普通的方法计算出的平均分)

    v = number of votes for the movie = (votes) (投票人数,需要注意的是,只有经常投票者才会被计算在内,这个下面详细解释)

    m = minimum votes required to be listed in the top 250 (currently 1250) (进入imdb top 250需要的最小票数,只有三两个人投票的电影就算得满分也没用的)

    C = the mean vote across the whole report (currently 6.9) (目前所有电影的平均得分)

    IMDB上的评分完全来自于网民的评价,凭的是参与评价的网民的自身喜好,参与评分的网民越多,IMDB的评分越有可靠性。

    这个估算比目前豆瓣所采用的简单平均分方法要科学的多,因为它既考虑了电影的受众人数,也考虑了优劣。比如一部电影只有10个人看过,这10个人都给它打10分,而另一部电影有10000人看过,平均分是9分,大家觉得哪个好?我想大部分人会相信是后者。所以这就是贝叶斯算法的依据。

    看到这个公式,我们就能明白为什么IMDB的排名最有权威性,虽然它是一个以英美观众为主的网站,但依然受到全世界影迷的推崇,这和它以科学为主导的客观公正性是分不开的。别的各种所谓排行榜都可以伪造,可以花钱买,或者是一种商业游戏,但是IMDB不是,所以这就是它的价值。

同分类推荐文章

  1. Four Levels Of Customer Understanding (2026-05-22 21:00:00)
  2. 除法的意义 (2026-04-12 20:52:17)
  3. 第五章:共识算法 (2026-03-18 08:00:00)

查看更多 算法 文章 →

建议继续学习

  1. 腾讯-1亿个数据取前1万大的整数-题解答 (累计阅读 10,001)
  2. 面试IT业界顶尖企业所应该知道的10道题(1) (累计阅读 8,422)
  3. 百度日本-四面楚歌 (累计阅读 7,942)
  4. 15道使用频率极高的基础算法题 (累计阅读 6,920)
  5. AWK介绍 (累计阅读 6,642)
  6. Java程序员必知的8大排序算法 (累计阅读 5,643)
  7. 数学之美:Hacker News的热门排名算法 (累计阅读 5,442)
  8. 深入浅出选择类排序算法(简单选择排序,堆排序) (累计阅读 4,581)
  9. Learning to rank在淘宝的应用 (累计阅读 4,504)
  10. 研发面试最常用的10大算法 (累计阅读 4,360)