IT技术博客大学习 共学习 共进步

标签的语言粒度

2010-04-22 18:21:20 浏览 2,842 次

    一年零六个月前,我写了篇使用标签是迟早的事来反驳“就博客而言,标签没有太大意义”的观点。最近又看到在分享里有篇文章提到tags在中文网站用不好的原因之一是语言的粒度问题,因为“英文的粒度是单词,中文的粒度是字。”并且举了个“猫”的例子,英文tags多半是cat,而中文tags可能是猫、猫猫、猫咪、咪咪、小猫咪等等。

    我认为这个结论还是不够准确,问题任何语言都存在,只是各有各的表现特征。在某种程度上,中文可能表现的很麻烦,但英文也简单不到哪里去,比如英文的复数。《锦绣蓝图》中有个关于英文正餐之前开胃菜说法的例子,可以叫starter, first course, appetizer, Hors d’oeuvres, Anamuse-gueule,另外西餐馆可能叫grazing,运动主题酒吧可能叫warmups。

    可见,问题的关键是计算机不能像人一样主动思考。并且现实生活中,因为语言、文化、习惯、专业等等因素,很容易造成词汇混乱。在信息架构专业领域里,有个方法叫“创建受控词汇表”。顾名思义,就是统一“约定俗成的表意词”,用人工的关系组织来让计算机明白N种说法其实都一样。

    文章提到第二个用户习惯的原因,我认为确实客观存在。但这个不是“中文”的问题,用户也可以再教育,比如很多做的好的英文产品上,也能看到中文用户提供并维护很好的tags体系。当然,说到网民容易把话题扯很大,反正现实是目前绝大多数中文网民上网的首要任务还不是“任务导向”。

    综上所述,我认为问题的根本不在tag本身,而是设计层面做的不够。在实际的处理方案中,我认为tags不一定需要用户来提供,因为确实价值有限。但如果是团队内部用tags来组织信息,肯定会收到事半功倍的效果。只不过中英文的处理上,应该需要注意中文本地化问题。

    还是关于“语言粒度”的例子,英文tags的input录入控件里,约定成俗的习惯基本都用英文逗号“,”做分隔符,而很多中文网站也延续了这个规范。我认为并不合适,因为英文的粒度是单词,有可能用多个单词加空格来做描述;而中文的粒度是文字,所有词描述都由N个字组成。另外,中英文切换也不方便,所以中文tags的input录入控件用“空格”做分隔符最合适。

建议继续学习

  1. 标签?ID?还是CLASS? (阅读 5,064)
  2. 给微博打上标签 (阅读 4,762)
  3. 推荐系统的问题 (阅读 4,644)
  4. PHP正则匹配字符串中的标签 (阅读 3,385)
  5. 互联网里的分类和标签 (阅读 3,284)
  6. 可选闭合标签 (阅读 3,082)
  7. 如何创建CSS的对象?获取合适的粒度! (阅读 2,922)
  8. Flash在某些多标签浏览器中的“伪沙箱”问题 (阅读 2,862)
  9. 让人又爱又恨的标签们 (阅读 2,622)
  10. 搜索引擎中的粒度问题 (阅读 2,601)