互联网时代,依赖人肉样本库的内容分析是极度不靠谱的
最近半年陆续接触数据分析工作,对于广告行业,有点感悟.
广告行业很认可建立样本库来推导整个市场的情况,来支持其购买媒介资源的依据.
这是有历史原因的,早期的电视,户外广告等都是单向传播的媒体.
早期电视媒体及户外广告,媒介售卖的其实是时间长度价值,
电视台媒体的播出时间资源总和其实是有限的.毕竟用户总要从中选择一个节目观看.
在计算样本库最小基数时 电视的总播出时间和用户的基数可以认为是不变的.
在电视机时代,样本库的调研方式是很有效的,至于样本库如何选择,最终采样的细节,我这里不探讨.
但样本库的基数需要参考整个市场的基数,电视面对的个体是家庭,国内有多少家庭,那么采用最少的样本库的规模,大致是多少.
样本库的方式有哪些缺陷?
样本库的方式对于大流量精品内容的分析,是可行的.但对长尾的检测对象的分析会有很大的问题.
这个和alexa的原理是一样的,往往alexa排名对于大站是比较靠谱的,网友可以找找相关文章.
我们看到国内几个做数据检测的公司,都依赖于样本库的方式来做推导.
比如admaster,秒针等公司分析的 广告既得流量,这些流量的量,远大于受众轮廓分析维度(地域,年龄,职业),不管怎么分配,都能得出大部分的流量归属. 这种样本库的分析方法是可行的.
而同时我看到一家神奇的公司,艾瑞同学,通过样本库(20W)的方式 可以神乎其技的调研各种(长尾)内容,品牌的数据调研报告.我个人认为是有很大的问题的.逻辑上是行不通的.
对于互联网数据检测这一块,秒针,admaster,GA的分析都是比较合理,逻辑上可行的.原因上面已经阐述过.
互联网的内容分析,能不能通过样本库的方式来做? 答案是 大流量内容的可以,长尾流量的内容是行不通的.除非样本库规模足够大.
互联网的内容 每年呈几何级数的爆炸式增长,用户与内容之间的距离越来越远,在用户周围充斥各种内容.也正是web2.0的这种大环境下,google,百度公司的价值凸显出来的原因,在早期内容不足的情况下,网友只需关注门户网站就好了.
互联网的视频内容,网友可以随意点播.用户对于互联网的使用对象 是整个互联网网站+客户端,或单机客户端。摆在用户前面的是海量的内容,及有限的时间. 简单的通过(1000W以下)人为协商安装软件样本库去分析长尾内容是极度不靠谱的.
在理论层面,网络的、数据传播,在主干线路,电信、移动运营商平台,走海底光缆各种途径.可以设置种种的检测关卡,都可以监控所有HTTP请求的数据,然后统一分析内容的欢迎程度,这也是极度靠谱的,Google做DNS解析,恐怕也是想知道什么内容好,什么内容差吧。
对于用户的分析,依赖于 平台级的互联网产品,比如百度,腾讯庞大的用户群,依赖于用户行为的分析,可以分辨出用户的属性.
这种方式获得数据,也远好于样本库的分析用户。
因此某家公司依赖于样本库的数据检测公司,全网检测数据,发布各种长尾内容数据分析报告.这种数据是极度不靠谱的. 如果是大流量的精品内容数据,这家公司又是没有价值的,因为百度指数,google trends比他们好N倍,样本库 尼玛呀。
所以 我力劝这种公司早点关闭这种不靠谱的部门,做咨询公司该干的事情吧.
在互联网文字时代,判断内容的优劣,做的最好的是搜索引擎,百度与google.其他公司都是纸老虎.
至于在视频和图片时代,google 公司也是牛B的一塌糊涂,百度是纸老虎.
建议继续学习:
扫一扫订阅我的微信号:IT技术博客大学习
- 作者:排头兵 来源: 排头兵 @ Talk
- 标签: 人肉 内容分析
- 发布时间:2012-05-12 22:33:24
- [54] IOS安全–浅谈关于IOS加固的几种方法
- [53] Oracle MTS模式下 进程地址与会话信
- [53] Go Reflect 性能
- [52] 如何拿下简短的域名
- [51] android 开发入门
- [49] 读书笔记-壹百度:百度十年千倍的29条法则
- [48] 图书馆的世界纪录
- [46] 【社会化设计】自我(self)部分――欢迎区
- [38] 程序员技术练级攻略
- [31] 视觉调整-设计师 vs. 逻辑