Tag与Tagging

Taobao.com UED Team 2009-11-16 23:25:37 累计浏览 2,586 次

本机暂存

内容概览

这篇讲的是技术中两个看似简单、实则常被混淆的概念：“Tag（标签）”与“Tagging（标记）”。作者从日常开发中的一个常见困惑切入：当我们说给文章、代码或用户“打标签”时，我们到底在做什么？文章厘清了二者本质的不同。

核心在于，“Tag”是一个静态的、预定义的“容器”或“分类”。它像一个抽屉上的标签，规定了抽屉里物品的归类范畴。而“Tagging”是一个动态的、基于用户行为的“关联”过程。它更像一个读者在阅读时随手贴上的便利贴，可能跨越原有的分类体系。

文章进一步剖析了在实际系统设计中如何选择。如果你构建的是一个分类明确、由管理员主导的内容管理系统（比如新闻网站的频道），预定义的“Tag”体系是更可控的选择。但如果你面向的是开放协作平台（比如用户生成内容社区），鼓励用户自由“Tagging”则能催生出更丰富、更意想不到的内容关联，其价值恰恰在于打破预设框架。

最后，文章也提到了实践中两者常结合使用：用预定义的标签建立基础秩序，同时保留用户标记的灵活性，以在规范性与活力之间取得平衡。这为技术架构师在设计元数据系统时，提供了一个清晰的思考起点。

注：该文发表于《程序员》第10期，有删节。

Tag，直译标签，是一种由用户自定义的、用于描述信息 [1]的关键词。Tagging是用户为信息赋予Tag的行为。Delicious，Flikr等Web2.0网站的发展促进了它的流行，使之成为社会化书签、相册服务、博客等网站的常见功能。但Tagging对用户来说是一种脑力负担不轻的行为：要将信息分类尚属不易，勿论描述信息。对一条信息而言，应该Tag类目还是属性？范畴应该更宽还是更窄？Tag越多越好、还是控制在一定数量内？尤其困难的是，由于并非事前规划，无法很好预计被Tag内容的发展，入门、维护并不轻松。但从目前网络发展形势而言――个人自生成内容（博文、图片、视频等）迅速增加，各类信息海量涌来――Tag可谓信息管理的强大利器。此文以文献整理回顾的方式，分别论述：1. Tagging的利与弊；2.Tagging系统及其UI设计

1. Tagging的利与弊

1-1. Tag与Tagging

・ Tag作为元数据(metadata)：元数据是所谓描述数据/信息的数据，Tag则是一种用户自创的元数据，特点是无层次结构、自定义。

・ Tagging构成分众分类法(folksonomy)：分众分类法，指大众自发利用Tag对信息进行描述、分类，构成与信息架构中传统分类法(taxonomy)相对的信息组织。二者的区别见下表1：

2009-10-14_175620

表1：taxonomy VS. Folksonomy

1-2. Tagging的利

结合表1的对比，可归纳出Tagging的以下好处：

・ 使信息组织更经济、高效、灵活。

如《未来是湿的》作者所言，“只有所有人能把所有信息都分类”。当信息越多，传统分类法的劣势越明显――开发、维护成本只升不降；基于Tagging、运用群众力量的分众分类法则相反。尤其当前的趋势是个人自生成信息越来越多，系统的分类、描述能力和效率可说远不如内容创造者本身。

・ 对信息的索引、描述更丰富。

（1）Tag固然不如传统分类法中的控制词表(thesaurus)那么严谨标准，但由于信息可被无穷多人赋予无穷多Tag，故茫茫网海中只要有一个人跟你想到的描述一样，搜索就更有机会有所获。而要恰好用上专家词表内的专业化语词，难度可能更高。对于图像、视频、音频此类系统标注成本极高、效率极低的信息而言，Tagging的价值会更明显。

（2）用于描述某信息的所有Tag往往是公开共享的，其分布往往呈图1所示长尾状收敛（Shirky, C. 2005）。各Tag及其频率，既可反映大众对于该信息本质广泛一致的定义，又不至于让小众意见(minority opinion)完全被淹没。

2009-10-14_175918

图1：两条deli.cio.us书签的Tag频率分布

・ 更人性化的信息检索。

上述两利，最终优化的是搜索：由于对一组系统信息（如个人的博文、Flikr的所有相片、Youtube的所有video）的接入点更多了，用户在信息海洋中找到与之需求匹配的信息的机会也更高。即利用大众的智慧，使搜索在机器化的基础上，更语义化、人性化、社会化。

以上三点是Tagging社会性优势。Golder et al（2006）提出Tag大致在描述信息的7方面：它关于什么（主题、分类、属性等），它是什么（标题、类型等），谁拥有它（作者、协作者），修饰Tag的Tag，它的品质（有趣、雷人等），自我参考（我买过的、我的书等），任务管理（待读、找工作等）。该分类并非绝对，但从后三种可看出Tag在标引信息时的一大特点在于自我性。这带来的好处有：

・ 辅助个人信息管理。对个人信息管理而言，Tag可以发挥更大的作用。因其高度自定义性，使信息可被个性化地描述，使个人使用情景(context)成为信息描述的一部分。“很喜欢”、“我想要”、“妈妈生日”这类Tag，是系统较难为用户索引的。

・ 身份识别。如从某博客的标签云/列表，能看出博主的兴趣、甚至职业等个人信息。

2009-10-14_175939

图2：某博客的Tag云

Marlow et al （2006）与Ames & Naaman（2007）曾探讨用户Tagging的动机（表2），表现出社会性与自我性的结合。

2009-10-14_175954

表2：Tagging的动机

这又带来另一种优势：社会化网络的构建。Tag聚物（信息），亦聚人。一方面，它昭示一个人的兴趣爱好，从而帮助个体寻找同好。另一方面，它能聚合兴趣团体。例如Flikr上一个语法错误、表意模糊的Tag，sometaithurts（so meta it hurts，如此“元级别”，如此痛），却聚集了来自各色用户的各色相片。给照片Tag上sometaithurts的个体，由Tag聚集在一起，彼此间因此有了进一步社交化的机会，并将为这个Tag聚集更多的物。

1-3. Tagging的弊

Tagging最为人所诟病的特性有：缺乏一致性、歧义、语法错误。这是由于与专家相比：

・ 大众是“懒惰”的：Tagging可能停留在粗浅的表层，而不做深入思考或精准描述。尤其当Tag与系统固有分类维度重合的时候，就会失去价值。例如为豆瓣上的电影打上“电影”这个Tag的意义是零。

・ 大众是“虚伪”的：有人会为了让自己出现在搜索结果更前面等目的而乱Tag；

・ 大众很“笨”：

拼写问题。除了拼错字词，英文里词组的分隔、大小写、单复数等就会造成大量混乱的Tag；没记性。表现为个人在同一系统中使用不一致的Tag（如字面相异，意义相同等）来标注同一或相似内容。

这导致大量污染性的垃圾Tag，即所谓搜索结果中的噪音出现，从而降低检索效率。但这并非Tagging的致命伤，通过设计的引导是可以改善这些问题的。第三部分将展开讨论。

2.Tagging系统，及其UI交互设计

2-1. Tagging系统

网站在添加Tagging功能前，需要考虑若干维度，才能让Tag对网站的信息管理、检索发挥真正的作用，否则只是潮而不实的装饰。

Marlow et al （2006）提出一个Tagging系统模型，包括资源、Tag、用户三部分，它们的关系如图3。

2009-10-14_180021

图3：Tagging系统包括资源（信息）、Tag、用户三部分

笔者认为该系统忽略了另一部分：传统的系统分类。并不应该丢弃或将专家的智慧斥之于外，就如亚马逊既有商品的树状分类，以有用户提供的Tag。

与模型一并提出的是该系统应考虑的7个维度（表3）。

维度	种类	对设计的启示
Tagging权限	o 只能自Tag（Technorati） o 权限性Tag（Flikr) o 随意Tag（豆瓣）	决定了资源被描述的丰富度、准确度；影响用户个人管理Tag的复杂程度
Tagging支持	o 半盲Tag，输入后给与提示（Flikr）； o 输入前展示自己、他人常用Tag（豆瓣）	影响Tag的质量；用户Tagging时的思维负担
聚合方式	o 囊括式：同一资源可被赋予任何Tag，并计算重复频率（豆瓣） o 组式：同一资源不重复Tag，无累计（Flikr）	囊括式反映大众意见；组式反映平均
资源类型	网页、图片、视频、音乐等	标示资源的难易程度会影响用户所需的Tagging支持
资源来源	o 用户贡献(Flikr)； o 系统提供(Amazon)； o 抓取(豆瓣）	Tagging权限的设置
联通性	o 通过链接； o 通过群组；	决定用户间的互动程度、资源的可发现性

表3：Tagging系统的维度及设计启示

笔者以为，还需补充的一个维度是，Tagging清理。对于系统而言，是任由Tag无限泛滥不做任何事情？还是结合传统的机器索引、专家人工干预，适当过滤、聚合，以实现收敛？Gruber (2006)提出通过Tag内在的规范名?anonical Name）对字面各异、实质相同的Tag进行清理。如通过算法将User Experience, UX, user_experience在系统内部统一为规范名User Experience。无论用户输入的是哪个形式的Tag，系统都将返回所有的结果。

Tagging支持维度还需要虑的一个问题是：系统是否该教育、引导用户打某些维度的Tag？上文提及，当Tag与系统固有分类维度重合的时候，就会失去价值、没有发挥其作用。

不考虑这两点的话，随着Tag几何级数增长时，噪音也会越来越多。对于系统、对于面对这么多“原始”Tag的用户，都很糟糕。

2-2. Tagging系统的UI设计

UI作为Tagging系统与用户的交互层，肩负适当引导用户Tagging行为的重任，是决定Tag质量的关键。

・ 添加Tag：

要引导用户创造更优质的Tag，输入时刻的辅助至为重要。

（1）提供参考。

如罗列个人常用Tag，他人常用高频Tag，可有效减少拼写相异语义重复的Tag，提高Tag之间关联性，并可减轻用户思考负担。

在Delicious上收藏URL时，每输入一个Tag都有Tag池中同首字母的罗列。下方列有个人常用Tag，且优先放置与该资源可能相关的Tag。并有他人常用Tag的罗列。

2009-10-14_180046

图4：在delicious上收藏一条URL

（2）批量添加。对于所Tag资源是用户自发贡献时（典型如相片），批量添加Tag的功能能提高效率以及减少二义性。

2009-10-14_180059

图5：在Flikr上传时

・ 编辑Tag：

目前常见的编辑操作包括：

（1）删除。

（2）重命名。除了基础的重命名，此功能可延伸为Tag的合并与分拆。合并指，若改为与现有另一Tag重名的Tag，自动将二者下的信息合并。分拆指，将当前Tag进行概念细化成新的若干概念。

2009-10-14_180111

图6：在Delicious重命名一个Tag

（3）Tag Tag.较为高级的操作，包括用一个Tag 囊括若干Tag（Tag bundle），对Tag增加描述等。

・ 浏览Tag

目前Tag的展现方式主要有列表与云图两种。列表无重点，云图则降低了较小字号Tag被发现的效率。但无论采取哪种视图，由于标签的增长性较强，数量的增加相应提高寻找成本。从算法的角度，可考虑Montero et al(2006)所提出的语义聚类：根据不同Tags同现的频率将其聚合、相邻放置。从交互的角度，应提供一种或以上排序（按字母、热度）。

2009-10-14_180133

图7：Delicious的Tag云页面

总结：

Tag以及Tagging的社会性、自我性，能帮助实现个人化、社会化、情景化搜索，但前提是：

・有更成熟的Tagging系统构建。底层技术上，目前对于垃圾Tag的收敛、清理，做得不够，也尚未良好地结合传统分类与大众分类。UI上，尚未实现有效引导用户去Tag系统已有维度之外、更具附加值的维度。如在豆瓣上打“友情”这个Tag是有价值的，但打“电影”就无甚价值了。）

・对大部分人来讲，Tagging的门槛――无论是操作上还是脑力负荷上――仍然较高。如果结合SNS著名设计师Joshua Porter的使用周期论以及产品接纳三阶段来看，一个Tagger的发展可用下图来表示：

2009-10-14_180158

图8：Tagger的进阶

目前大部分人仍处于第一阶段之外，但也许随着Tag的好处被更好地表现，Tagging的易用程度增加，更多的人会进入这个周期。当系统完善了，人更能轻松发挥力量去补足系统了，语义网的实现就将更有可能。

参考文献

o Ames, M., and Naaman, M. (2007). Why We Tag: Motivations for Annotation in Mobile and Online Media. Proceedings of the SIGCHI conference on Human factors in computing systems

o Golder, S., and Huberman, B. (2006). Usage patterns of collaborative Tagging systems. Journal of Information Science, 32(2), 198-208.

o Gruber, T. (2005). Ontology of folksonomy: A mash-up of apples and oranges. 1st On-Line Conference on Metadata and Semantics Research (MTSR ‘05).

o Marlow, C., Naaman, M., Boyd, D., and Davis, M. (2006). HT06, Tagging Paper, Taxonomy, Flickr, Academic Article, ToRead. Proceedings of Hypertext 2006, New York: ACM Press,2006

o Mathes, A. (2004). Folksonomies ― Cooperative classification and communication through shared metadata,” Computer

同分类推荐文章

如何写好设计文档？（2026-06-23 08:00:00）
Designing With Uncertainty: How AI Supercharges Probabilistic Thinking （2026-06-16 23:00:00）
The Benefits Of Cognitive Inclusion In UX Research （2026-06-10 18:00:00）

查看更多设计文章 →

建议继续学习

如何获取hive建表语句（累计阅读 7,185）
在信息架构层次对比开心网和Facebook的设计（累计阅读 4,397）
中文段首不需要空两格（累计阅读 3,823）
电子商务搜索LIST页面用户体验设计（累计阅读 3,638）
用户体验的量化方法…… （累计阅读 3,414）
设计的复用（累计阅读 3,372）
信息架构中的常见模型（累计阅读 3,030）
UCD2010信息架构工作坊（累计阅读 3,039）
标签的语言粒度（累计阅读 2,939）
深入Web信息架构（累计阅读 2,870）