互联网时代,依赖人肉样本库的内容分析是极度不靠谱的 -- 互联网 -- IT技术博客大学习 -- 共学习共进步！

您现在的位置：首页 --> 互联网 --> 互联网时代,依赖人肉样本库的内容分析是极度不靠谱的

互联网时代,依赖人肉样本库的内容分析是极度不靠谱的

浏览:1539次出处信息

最近半年陆续接触数据分析工作，对于广告行业,有点感悟.

广告行业很认可建立样本库来推导整个市场的情况，来支持其购买媒介资源的依据.

这是有历史原因的,早期的电视，户外广告等都是单向传播的媒体.

早期电视媒体及户外广告，媒介售卖的其实是时间长度价值,

电视台媒体的播出时间资源总和其实是有限的.毕竟用户总要从中选择一个节目观看.

在计算样本库最小基数时电视的总播出时间和用户的基数可以认为是不变的.

在电视机时代,样本库的调研方式是很有效的，至于样本库如何选择,最终采样的细节,我这里不探讨.

但样本库的基数需要参考整个市场的基数,电视面对的个体是家庭，国内有多少家庭，那么采用最少的样本库的规模，大致是多少.

样本库的方式有哪些缺陷?

样本库的方式对于大流量精品内容的分析,是可行的.但对长尾的检测对象的分析会有很大的问题.

这个和alexa的原理是一样的,往往alexa排名对于大站是比较靠谱的,网友可以找找相关文章.

我们看到国内几个做数据检测的公司,都依赖于样本库的方式来做推导.

比如admaster,秒针等公司分析的广告既得流量,这些流量的量，远大于受众轮廓分析维度(地域，年龄，职业)，不管怎么分配，都能得出大部分的流量归属. 这种样本库的分析方法是可行的.

而同时我看到一家神奇的公司,艾瑞同学,通过样本库(20W)的方式可以神乎其技的调研各种(长尾)内容，品牌的数据调研报告.我个人认为是有很大的问题的.逻辑上是行不通的.

对于互联网数据检测这一块,秒针，admaster,GA的分析都是比较合理,逻辑上可行的.原因上面已经阐述过.

互联网的内容分析,能不能通过样本库的方式来做? 答案是大流量内容的可以，长尾流量的内容是行不通的.除非样本库规模足够大.

互联网的内容每年呈几何级数的爆炸式增长,用户与内容之间的距离越来越远,在用户周围充斥各种内容.也正是web2.0的这种大环境下，google,百度公司的价值凸显出来的原因，在早期内容不足的情况下，网友只需关注门户网站就好了.

互联网的视频内容，网友可以随意点播.用户对于互联网的使用对象是整个互联网网站+客户端，或单机客户端。摆在用户前面的是海量的内容，及有限的时间. 简单的通过(1000W以下)人为协商安装软件样本库去分析长尾内容是极度不靠谱的.

在理论层面，网络的、数据传播,在主干线路，电信、移动运营商平台，走海底光缆各种途径.可以设置种种的检测关卡，都可以监控所有HTTP请求的数据,然后统一分析内容的欢迎程度，这也是极度靠谱的，Google做DNS解析，恐怕也是想知道什么内容好，什么内容差吧。

对于用户的分析,依赖于平台级的互联网产品，比如百度，腾讯庞大的用户群，依赖于用户行为的分析，可以分辨出用户的属性.

这种方式获得数据,也远好于样本库的分析用户。

因此某家公司依赖于样本库的数据检测公司，全网检测数据，发布各种长尾内容数据分析报告.这种数据是极度不靠谱的. 如果是大流量的精品内容数据，这家公司又是没有价值的，因为百度指数，google trends比他们好N倍,样本库尼玛呀。

所以我力劝这种公司早点关闭这种不靠谱的部门,做咨询公司该干的事情吧.

在互联网文字时代，判断内容的优劣，做的最好的是搜索引擎，百度与google.其他公司都是纸老虎.

至于在视频和图片时代,google 公司也是牛B的一塌糊涂，百度是纸老虎.

QQ技术交流群：445447336，欢迎加入！
扫一扫订阅我的微信号：IT技术博客大学习

后一篇：电商价格战 >>

建议继续学习

近3天十大热文