技术头条 - 一个快速在微博传播文章的方式     搜索本站
您现在的位置首页 --> 互联网 --> 新闻聚合之Google news模式与 Techmeme模式

新闻聚合之Google news模式与 Techmeme模式

浏览:1177次  出处信息

    随着网络信息的飞速发展,科技新闻这一重要科技资源形式发挥着越来越重要的作用。如何对海量的科技新闻进行聚合已成为新兴的热点话题。文章介绍了新闻聚合的产生,并将现在广泛使用的新闻聚合模式归纳为:人工编辑组织、Digg、Google news、Techmeme四种模式;选取其中最具代表意义的Techmeme模式和Google news模式进行了详细论述,运用SWOT分析方法,从二者内部的优势、劣势、外部的机会和威胁四个方面进行分析,并在此基础上提出了二者之间存在的十二方面的主要差异;同时科技新闻的聚合方式对图书情报行业的信息聚合方式也有一定的借鉴意义。

    关键词:信息聚合,新闻聚合,科技新闻,Google news模式,Techmeme模式,数字图书馆

    随着网络的日益普及、网上信息数量的迅猛增长,互联网已经成为人们获取知识的重要信息源。电子科技新闻,这一重要科技资源也在广大科技工作者的工作中发挥着越来越重要的作用。但是,在网络中有用信息大量增加的同时,无用的冗余信息也随之增加,这就给科技工作者准确迅速获取有效信息带来了一定困难:为了满足日常工作的信息需求,科技工作者们不得不花费大量的时间去搜索、浏览,从搜索引擎提供的大量信息中逐条筛选有效信息。为了解决用户因盲目点击和无目的阅读所耗费的大量时间和精力的问题以及如何为用户提供所

     关注领域的最新信息,聚类技术应运而生了。但应采用哪种聚类技术,采用何种聚合方式至今仍是科技界探讨的热点话题。

    1 新闻聚合

    1.1 新闻聚合的产生

    新闻聚合(News Feeds),是一种新兴的网络信息聚合技术。新闻聚合工具是将新闻按不同的话题进行分类、聚合,最后把符合要求的新闻推送给读者的一种工具。通过新闻聚合工具的使用,读者可以快速方便地浏览到自己关心的新闻。新闻聚合的思想产生源于美国2001年爆发的“911”事件。美国“911”恐怖袭击事件后,互联网上关于“911”的相关新闻的需求突增,导致不少新闻站点因无法承受流量压力而罢工。Google也不例外,一时间,关于“911”相关新闻的搜索需求量突增到平时的60倍。为了应对这一突发事件,Google采取了紧急应对措施:把大型新闻网站上与“911”事件相关的链接集中存放在Google首页,以方便读者查询。这是Google News的雏形,在此举措的启发下新闻聚合思想诞生了。

    1.2 新闻聚合的方式

    互联网发展至今,网络信息已经成为大众获取信息的重要渠道之一,同时用户对信息的需求在数量和质量上都有所增加。因此各大网站纷纷采用了各种各样的聚合技术,以期为用户提供更为便捷、有效的信息服务。纵观新闻聚合的发展历史,综合分析对比当今各大网站采用的聚合方式,其聚合思路可以归纳为以下四种:人工编辑组织聚合;Digg类的投票社交聚合;以Google为代表的语义聚合;以Techmeme为代表的link聚合。

  • 人工编辑组织聚合:人工编辑组织聚合方式其信息内容主要依靠专业编辑多年积累的经验及自身的新闻敏感度,并参考点击量、阅读数量、推荐指数、评论指数等机器统计数据,从而确定并向读者推荐当日的重要新闻(焦点新闻)。具体的新闻内容需要通过专业编辑的审批,需有专业人员维护。国外的雅虎及国内的大多数门户网站都是采用此思路。
  • Digg类的投票社交聚合:Digg类投票社交聚合主要是依靠网友的力量对资讯进行筛选、推荐、投票,根据投票和推荐结果的统计,生成相应的内容。其信息排行几乎不人工干预,由读者参与决定新闻的重要度和推荐度。如我国的抓虾和鲜果。
  • Google news:Google news是机器聚合的代表,它依靠机器语义分析,从海量的互联信息中找到相匹配的新闻链接,以一定的显示方式全部推荐给读者,再由读者自行挑选自己关心的新闻。百度新闻、雅虎News也是采用这种聚合方式。
  • 以Techmeme 为代表的link 聚合:Techmeme分析的对象包括新闻、博客、视频、图片等多种方式,它不仅向读者推荐新闻本身,还会把有关该新闻的评论、不同或类似观点及后续观点等一系列新闻背后的有价值的新闻,经过综合分析后再推送给读者,可以使读者全面了解所关注新闻的背景、不同的观点及后续发展等情况。它很好地反映了信息的连续性和回放性。国际上使用这种方式的网站并不是很多:首创者美国的Techmeme仍是科技新闻翘楚,其跟进者中国的玩聚网,发展并不成熟,影响力不是很大。在科技新闻领域中,上述的四种模式应用最为广泛的当数Google news的科技新闻和Techmeme。其中, 依托于Google 强大搜索功能的Google news,充分利用搜索引擎本身便捷、快速、全面的特性,很好地弥补了新闻内容过于分散的缺陷。而Techmeme则是最先采用“依靠分析挖掘link发现热点”的新闻聚合模式。随着信息传播领域的焦点从人工编辑转向机器聚合,Techmeme以其抓取速度快、内容全面和阅读效率高三大优势成为最受关注的热点话题。
  •     2 Google news模式与Techmeme模式比较研究

        2.1 Google news聚合模式概况

        Google News(谷歌版叫“资讯”) 采用的是机器过滤关键字的聚合方式。它是当时的首席科学家Krishna Bharat在“911”事件的启发下,对其雏形进一步完善形成的,他将不同新闻源的新闻聚合起来,这样用户就可以方便地看到不同媒体关于同一新闻的观点和报道。

        但是,随着读者需求的纵向加深,Google news这种单纯的新闻事实收集方式已不能满足需求,他们更希望了解的是新闻背后的“故事”。对此Google积极采取了改进措施:

        2006年Google推出了定制搜索引擎,通过它网站和Blog发布者能够为读者提供更具相关性的搜索结果。通过选择关键字和发布者想要在搜索列表中包含的站点列表,用户可以实现以下功能:①只搜索某些站点;②最先搜索某些站点;③排除某些站点。这个定制的搜索引能够入驻用户选择的站点,搜索结果可以根据用户的喜好以不同风格、不同语种显示。

        2007年Google news引入了当事人评论机制,增加了新闻信息的丰富度。这种机制将传统媒体机构采集的新闻与新闻当事人的评论相结合,在提供新闻的同时也提供原创价值信息和新闻链接。Google正在积极引入人工参与的模式,以弥补机器聚合带来的缺陷。

        2.2 Techmeme聚合模式概况

        Techmeme的前身是2005年推出的memeOrandum,经过几年的发展完善,Techmeme已经成功突破博客社区这个“小圈子”,上升为一个主流的科技新闻网站。Techmeme主要关注科技话题,实时监测已定义的Blog列表,通过扫描传统的新闻媒体和博客(侧重于科技类博客)的URL链接来挖掘博客作者之间的对话线索,识别出哪些新闻是重要的,并将相关的新闻信息整理后,以对话的形式展现在首页上,便于用户阅读。其中,这个Blog列表是前一个月内被 Techmeme 采用频率最高的100个站点的列表,此列表包含所有权威的科技新闻源和一流的Blog。

        Techmeme是一个非常有效的内容过滤器。首先,Techmeme的聚合是高度相关的,能够毫无遗漏地发现当日所有基于Blog和IT媒体的科技新闻热点。其次,Techmeme的时效性非常强,一般文章发布15分钟后,就能被抓取到。再者,Techmeme具有引发讨论、创造热点的功能。Techmeme能在Blog的非正式讨论中发现未被报道的新闻热点和未来的新闻趋势,通常情况下几天后这些新闻就会出现在《纽约时报》等主流媒体上。正如TechCrunch创始人迈克尔・阿灵顿(Michael Arrington)所说的那样“从某种程度上讲,Techmeme可视为博客圈的日报”。这也是Techmeme成为科技工作者必看站点的原因。

        2.3 Google news与Techmeme模式的SWOT分析

        Google news和Techmeme都是当前最优秀的新闻聚合工具,但它们本身并不完美,仍需改进。为了使Google news和Techmeme的优缺点更加清晰,笔者运用SWOT分析方法分别对二者的竞争优势(Strength)、劣势(Weakness)及外界存在的机会(Opportunity)和威胁(Threat)进行了深入的分析,详见表1和表2。

        

        

        2.4 Google news与Techmeme模式的差异分析

        通过对比表1和表2中两者所处的外部环境,可以看出:Google news与Techmeme都处在一个网络媒体快速增长、传播范围日益广泛、受众人数剧增的时期,这一机遇为新闻聚合媒体的发展提供了更加广阔的空间。但与此同时,他们又都面临着来自其他同行业厂商的激烈竞争。将两者自身的优势和劣势交叉对比后发现:Google news与Techmeme之间存在很大的差异,主要表现在以下方面:

  • 搜索功能。Google news拥有强大的搜索功能。而在Techmeme网站内没有设置检索入口,这一缺陷是其最大的软肋。
  • 新闻来源。Google news的新闻主要来源为主流报纸,没有考虑其他新兴的新闻形式,如博客。Techmeme融合了新闻和博客两大新闻源。
  • 新闻的时效性。两者的新闻时效性不同,Google news可以显示已经发布18到20小时内的新闻内容,而读者可以在Techmeme上找到15到30分钟前新闻媒体或博客发布的最新消息。
  • 新闻的可定制性。Google news可以依据读者的兴趣与爱好定制不同的新闻;而Techmeme只显示最新的热点新闻,读者没有自主选择的权利。
  • 页面显示。Google news采用的是限量显示方式,即每页最多可以显示十条新闻,而Techmeme采用的是分层、滚动的显示方式,通过这种方式读者可以方便地追踪、参与话题讨论,且新闻显示的条数不受限制。
  • 新闻重复性。Google news的新闻主要来自主流报纸如美联社、新华社等媒体网站,而这些网站的新闻报道的重复现象很严重,因此Googlenews不可避免的会有大量的重复新闻存在。与之相比,主要聚合来自博客内容的Techmeme,重复信息相对较少。
  • 新闻存档功能。Google news没有新闻存档功能,加上它的新闻变化频率高、每页显示的新闻数量少,读者一旦错过某条新闻,就很难再找回。Techmeme为读者提供了完善的存档功能,只要输入日期和时间,就可以看到当时的页面。
  • 新闻的权威性。从2007年开始Google news采用了邀请新闻当事人的评论机制,但评论的权威性难以保证。而Techmeme的观点来自权威的主流媒体及博客(这些博客的博主大多是行业的专家或权威人士),这一方式保证了新闻的准确性和权威性。
  • Techmeme具有的Track功能,用户可以通过RSS订阅方式来跟踪某个热点。这正是Google news所欠缺的。
  • Techmeme在对新闻进行聚合的同时也引入了对photo和Video的聚合,暂时没有迹象表明Google news具有此功能。
  • 页面更新频率。除上述十个方面外,Google news和Techmeme在页面的变化频率上也有很大的区别,Google news界面每几分钟就会变化一次,虽然Techmeme的新闻也在变化,但变化的频度没有Google news那样快。经过一段时间的跟踪观察,发现Google news的页面每几分钟就会更新一次,如在2008年3月18日笔者于11点14分采集到了刚刚更新的新闻页面,五分钟后其页面有发生了更新,且除了“微软Vista SP1将于明日发布亚马逊网站开售”这一条新闻外,余下的13条新闻均已发生了变化。2008年3月25日13点39分笔者第一次采集到了Techmeme页面上刚刚更新后的新闻,二十分钟后再次采集到更新后的内容,主页面上的新闻内容并没有更新,仅右边一栏中的“最新发现的新闻主题”的部分内容发生了变化,并且它发布了6分钟以前刚刚发生的最新消息。
  • 服务对象。Google news的科技新闻是以大众为服务对象的,它没有十分明确的客户群体的区分,而Techmeme主要是针对科技博客作者、科技新闻工作者和科技工作者的一种新兴的信息聚合方式。
  •     随着阅读需求的深化,读者不再仅仅需要单一的新闻信息,而是应该包含评论、观点和更多辅助信息,Techmeme非常恰当地迎合了科技读者对“新闻”和“观点”两方面内容的阅读需求,相对来说,Techmeme更适合科技新闻的聚合。分析两者的劣势可以发现,和Google news相比,虽然Techmeme在品牌及市场占有率上暂时处于劣势,但其迅速提升的市场占有率及客户群体的迅速增加,已引起了Google的高度注意。虽然Techmeme暂时局限于美国市场这个小圈子内,但是其国外科技读者的数量正在以几何级数的速度增长。面对外界的同样的机会和威胁,谁能更好、更快地弥补自己的缺陷,谁就更有可能成为未来驾驭科技信息聚合领域的最强有力的方式。

        3 启示

        通过上述研究发现,Google news和Techmeme这两种聚合方式各有利弊。互相取长补短,在两者之间寻找最佳的可能组合,是今后新闻信息聚合最理想的方式。

        同时Techmeme模式和Google news模式的组合对改善图书情报行业的信息聚合服务方式也具有一定的借鉴意义。

        首先,科技工作者的信息要求的加深,已有的被动信息查阅的方式已不能满足要求。当今社会,信息更新速度越来越快,科技工作者需要第一时间掌握本领域最新研究动态,以便及时调整研究重点。而大部分科技工作者工作繁忙,他们不可能将大量的时间用于跟踪国际最新动态。如果能提供一种实时跟踪工具,并把跟踪结果经过去重等一系列初步处理后,推送给科技工作者,一定会受到欢迎。而Techmeme快速准确的信息聚合方式很好地满足了这一要求。

        其次,随着学科划分的不断细化,研究领域的不断拓展,科学研究的范围越来越广阔,但对每位具体的科学研究人员来说,他的研究领域在短时期内是不会变动的,也就是说在一定时间内每位科技工作者只对某个很小领域内的科技信息感兴趣。因此,针对性很强的科技信息才是科技工作者真正需要的,Google news的信息自主定制功能很好地满足了这一需求。

        再者,对于新进入某领域的科技工作者来说,他们需要了解该领域的研究状况,这就需要对一定时间内的信息进行回溯,这也是现在图书馆保留大量历史信息的原因,Techmeme具有的历史存档功能很好地解决了这一问题。

        现阶段,无论Techmeme的聚合模式还是Google news的聚合模式都不是很完善,因此在图书情报机构进行信息服务时,应综合考虑这两种模式的优劣,结合本行业的具体情况,取长补短是今后的发展思路。

        4 结论

        随着读者对非官方内容的阅读需求、读者阅读信息的分化和深化、信息的日益丰富、信息获取手段多样化及用户参与新闻选择的呼声不断高涨,Digg、Techmeme、Google news等新闻聚合方式应运而生。不管哪一种新闻聚合模式,都是为读者服务的,谁能够提供最高效的阅读方式,谁就能最大程度地争取到用户,最大范围内开拓自己的市场,成为科技新闻聚合的主流。同时科技新闻聚合模式对图书情报的信息聚合服务方式也有一定的借鉴意义,如何取长补短,找到最佳的组合是今后研究的重点课题之一。

        参考文献

        [1] DAS A S, DATAR M, GARG A, RAJARAM S. Google news personalization: scalable online collaborative filtering[J]. WWW 2007 / Track: Industrial Practice and Experience, 2007, May: 271-280.

         [2] RADEV D R, OTTERBACHER J, WINKEL A, BLAIR-GOLDENSOHN S.News inessence: summarizing online news topics[J]. Commun. ACM, 2005,48(10):95-98.

         [3] CLEUZIOU G, MARTIN L, VRAIN C. PoBOC: An overlapping clustering algorithm, application to rule-based classification and textual data[C]//Proceedings of the 16th ECAI conference, 2004: 440-444.

         [4] 戴维民. 网络信息优化传播导论[M]. 上海: 复旦大学出版社,2004(18): 150-175.

         [5] 刘学. 中国网络新闻媒体研究[J]. 新闻与传播研究, 2002(1):26-34.

         [6] 约翰逊・托马斯, 凯・芭芭拉, 谭辛鹏. 互联网与传统媒介信息可信度的比较[J]. 国际新闻界,1999(05):12-18.

         [7] 王利. I T新语林:简易信息聚合[ J ] .计算机教育, 2 0 0 5 ( 0 8 ):63-64.

         [8] 王娜.博客搜索引擎与传统搜索引擎的比较研究[J].图书情报工作, 2006(07):54-57.

         [9] GEORGE C, SCERRI J. Web 2.0 and User-Generated Content: legalchallenges in the new frontier. Journal of Information, Law and Technology[J],2007(2):1-22.

         [10] 赵伟.网络传播中的博客研究[D]. 湖北:华中科技大学,2005.

         [11] 谭芳.网络新闻评论研究[D].湖北:武汉大学,2005.

         [12] 孙及园,林锦贤.对Web网页的查询及信息提取[J]福州大学学报(自然科学版), 2000(03):93-97.

         [13] 凤飞伟.网络新闻评论及其发展趋向研究[D]. 江西:南昌大学,2005.

        作者简介

        程文娟(1982-),研究方向:科技资源整合。通讯地址:北京市复兴路15号中国科学技术信息研究所研究生部 100038

         彭洁(1965-),研究员,主要研究方向:知识管理、信息资源整合。通讯地址:同上

         赵辉(1971-),工程师,主要研究方向:信息资源管理。通讯地址:同上

    建议继续学习:

    1. SolrQuery挖掘–单维度聚合分析    (阅读:2339)
    QQ技术交流群:445447336,欢迎加入!
    扫一扫订阅我的微信号:IT技术博客大学习
    © 2009 - 2024 by blogread.cn 微博:@IT技术博客大学习

    京ICP备15002552号-1