新浪微博笔试题：找出共有2个以上标签的用户对

标点符 2013-01-08 13:35:14 累计浏览 5,997 次

本机暂存

内容概览

在微博这样的社交平台上，如何从海量用户标签关系中高效找出共享多个标签的用户对？这篇技术文章从一道经典的笔试题切入，详细拆解了一个大规模数据处理问题的思路。

作者面对的核心挑战是：给定一亿用户和约三十万标签，每个用户最多十个标签，需要输出所有共享两个或以上标签的用户对及其共同标签。文章首先分析了数据特点，比如相当数量用户没有标签，这可以先通过过滤来减少计算量。接着，核心方案是构建标签到用户的倒排索引，将标签映射到用户ID列表，从而快速查找共享标签的用户。作者基于对微博系统可能采用NOSQL存储的假设，给出了具体的数据格式示例，并提供了Python代码实现倒排索引构建的过程——通过遍历用户标签列表，动态更新字典结构来关联标签与用户ID列表。

此外，文章还考虑了一些优化细节，比如对用户ID排序并只查找更大ID的用户，以避免结果重复输出。尽管作者自谦方法较基础，但整体展示了一个清晰的处理流程，将抽象笔试题转化为可操作的数据处理步骤，倒排索引的应用对于处理海量关系数据具有实际参考价值。

题目：给定sina微博的全部用户(1亿以上)和标签(uniq的标签30万左右)的关系，系统找出共有2个或以上标签的用户对，并给出这些标签是哪些。

input：userid,taglist
output：userid,userid,con-taglist (sizeof(con_taglist)>=2)

数据示例

输入

AA，体育新闻清华百年校庆
BB，娱乐八卦清华新闻
CC，体育娱乐新闻
DD，八卦新闻娱乐

输出

AA，BB 清华新闻
AA，CC 体育新闻
BB，CC 娱乐新闻
BB，DD 娱乐八卦新闻
CC，DD 娱乐新闻

接下来就一起来想办法解决上面的难题。基于对于新浪微博的了解，以下内容可能会在实现中起到一些作用：

目前新浪微博每个用户最多可设置标签10个；
目前有相当数量的用户是没有设置标签的。

解决问题思路：(自己整理的笨办法，自己能力有限暂时想不到更好的方案)

删除没有标签的用户数据，这一操作可以先把一部分不需要纳入分析的数据给排除掉。具体数量未知。
建立标签到用户的倒排索引。从以上数据上来看，平均每个标签用户对应的用户ID链要小于10^8*10/30^4 = 3000，但同时要考虑热门标签的ID数量会非常的大。
去除倒排索引后只有一个用户数的标签，这个估计可以去除的量很少。
对于删除后没有标签的数据按ID大小进行排序。
对于用户依次取其标签，查找倒排索引，找到共有用户。(只查找倒排索引中比用户ID比自己大的用户)

基于以上的想法，考虑的新浪微博应该采用了 NOSQL存储，我们先假定具体数据格式如下：

{“userid”:123,”taglist”:[“体育”,”新闻”,”清华”,”百年校庆”]}
{“userid”:124,”taglist”:[“娱乐”,”新闻”,”清华”,”八卦”]}
{“userid”:125,”taglist”:[“娱乐”,”新闻”,”体育”]}
{“userid”:126,”taglist”:[“娱乐”,”新闻”,”八卦”]}

就上面的一些数据我尝试了下将上面的数据进行倒排索引。具体的Python实现方法(代码写的比较丑，对于python怎么使用MapReduce)：

# -*- coding: utf-8 -*-
tagDB = open('tag.txt','r')
list = [s.strip() for s in tagDB.readlines()]
result={}
for i in list:
    data = eval(i)
    userid = data['userid']
    taglist = data['taglist']
    for tag in taglist:
        if result.has_key(tag):
            result[tag].append(userid)
        else:
            result[tag] = [userid]
print result
tagDB.close()

如果你有更好的解决方案，欢迎分享~

同分类推荐文章

对基本有序的序列排序算法（2026-06-11 17:46:49）
Four Levels Of Customer Understanding （2026-05-22 21:00:00）
除法的意义（2026-04-12 20:52:17）

查看更多算法文章 →

建议继续学习

海量数据面试题举例（累计阅读 11,114）
腾讯-1亿个数据取前1万大的整数-题解答（累计阅读 10,073）
进程运行于不同的 CPU 核（累计阅读 5,954）
Storm源码浅析之topology的提交（累计阅读 5,722）
Hadoop的map/reduce作业输入非UTF-8编码数据的处理原理（累计阅读 5,642）
浅析PageRank算法（累计阅读 5,374）
利用开源的Gearman框架构建分布式图片处理平台[原创] （累计阅读 5,320）
storm入门教程第一章前言（累计阅读 5,108）
用hadoop hive协同scribe log用户行为分析方案（累计阅读 5,072）
使用hadoop进行大规模数据的全局排序（累计阅读 4,602）