IT技术博客大学习 共学习 共进步

谁的数据:读《大数据》

It Talks 2012-08-28 13:53:46 浏览 2,462 次

    clip_image001

    大数据(Big Data)这个词最近非常火,从逻辑上讲,它和另外一个非常火的词“云计算”是勾连在一起的:放在云端的计算算什么?当然是处理数据。关于大数据的书,如果抛开纯技术书籍,在我的视野里,并不多(有些关于社会、个体行动预测可能也算在里头),这本由涂子沛所著的《大数据》,算是一本。

    不过,如果想从这本书里找到多少商业企业利用大数据获得巨大利益的话,那么它就会让你很失望。这本书更多地是在举政府对数据加以利用后提高整个社会透明度的例子,这些例子的直接后果就是对政府的行为做出了更有效的监督。为什么多政府例子而少商业例子呢(不是没有论述,而是实例比较少)?道理也很简单,商业上利用大数据,有两个先天不足:其一、商业公司的数据是保密的,很难有两个不同隶属的公司在数据上成就一番合作,数据与数据不能对接,难以说是什么“大数据”;其二、商业上对大数据的应用,目前不是没有,而是不太愿意特别张扬,这不得不涉及到这样一个问题:隐私。

    先来看第一个问题,我以中国互联网为例。时下可能用户最多的贡献内容区域就是微博了,这是用户的言论维度。最多的内容获取区域,不太好说,几个大门户都有着自己的地盘,姑且认为用户的阅读维度在门后吧。最明显的兴趣维度,其实是在搜索引擎,缺少兴趣你就不太可能在那个框里输入什么关键词。最后一个:消费维度,基本掌握在几个大型电子商务手里。从言论到阅读到兴趣到消费,这四大维度散落在不同的公司里,事实上我们的确可以承认将这些数据拼起来,可以得到相对最完整的人的维度,但很难想像他们会在数据层面进行合作。人的阅读和消费有没有关系?当然有,中间的关系是什么?那就不是那么容易获得了。算法建模倒是其次,数据采集就是个大难题。

    不过,第二个问题更让人觉得难以处理。本书用了整整一章来讨论这个问题<全国隐私风波>。涂氏起手就写到了“老大哥”——的确,当一个系统掌握所有的数据之时,那种洞察一切不能不让人想到奥威尔的比喻。美国政府不是没有在类似“中央数据银行”这方面努力过,但都铩羽而归。数据是客观存在的,但把它们整合到一起就是另外一回事了。这本书提及的一个案例,给我留下了深刻的印象。

    88年,CBS(哥伦比亚广播公司)一名记者要求FBI对其公开一个犯罪嫌疑人的犯罪记录。罪犯也是有隐私权的,FBI并不同意这个申请。但CBS认为,该嫌疑人有贿赂国会议员的行为,犯罪记录已经涉及到公共利益,所以要公开。官司最终打到美国高院。高院也认可罪犯的犯罪记录是隐私,但CBS认为,FBI的犯罪记录只是各个执法部门记录的一个加总,该嫌疑人的这些信息,都在以前某个特定时刻公开过,不能算作隐私。

    89年3月,高院做出了最终裁定,驳回了CBS的请求。判词中这样写道:“在一个有组织的社会里,几乎每一则信息都在不同的时候以不同的形式公开过。但是,就个人隐私而言,不同时期零散地公开和一次性完整地公开,即使内容相同,也有本质区别”—— 这个判词,某种程度上也同时宣告了“中央数据银行”的不可行。这在我看来,是现代数字社会中,非常重要的一个理念:零散数据的存在并不等于将它们汇总是毫无问题的。

    但大数据总是要加数据汇总的,不然也就不用谈什么“大”数据了。汇总之后当然也不见得需要公开,但危机就潜藏在这里。如果被非法使用呢?如果被黑客攻破而泄露呢?黑客们需要攻破多少数据库才能完整地拼凑出一个人的多种维度,有了中央数据银行这种东西,岂非让他们有一劳永逸之感?安全系统做得再好,但殊不知天下必有可以攻破的堡垒。

    进一步的问题在这里,这些数据都是人们各种行为产生的,但这些数据的所有权怕是颇有争议。如果是我的,那么我当然可以要求销毁的。如果是组织的,那么组织利用这些数据的时候,有没有必要去通知行为人呢?如果有必要,操作性有何在呢?如果要说起伦理问题,真不是一句话两句话能说清楚的。

    而在我看来,大数据时代虽然不可阻挡,但“谁的数据”这个问题,却无答案。而这个没有答案的情况,将会为这个时代蒙上那么一层阴影。这种阴影,恐怕不见得仅仅是商业层面的,甚至是政治层面的。

建议继续学习

  1. 海量数据面试题举例 (阅读 10,825)
  2. 三种东西永远不要放到数据库里 (阅读 7,865)
  3. 如何对统计数据进行分析 (阅读 4,981)
  4. 从数据中了解用户——数据在新产品设计中的应用 (阅读 4,303)
  5. 数据即代码,我和小伙伴们都惊呆了! (阅读 4,305)
  6. 从数据中了解用户——数据在现有产品改版设计中的应用 (阅读 4,202)
  7. 我们需要什么样的网站数据 (阅读 3,402)
  8. 统计数据背后的真相 ― 读《How to lie with statistics》 (阅读 3,300)
  9. 有关品牌微博的一些数据 (阅读 3,302)
  10. 分表优化:千万级数据的插入方法 (阅读 3,083)