技术头条 - 一个快速在微博传播文章的方式     搜索本站
您现在的位置首页 --> 互联网 --> 互联网时代,依赖人肉样本库的内容分析是极度不靠谱的

互联网时代,依赖人肉样本库的内容分析是极度不靠谱的

浏览:1143次  出处信息

    最近半年陆续接触数据分析工作,对于广告行业,有点感悟.

     广告行业很认可建立样本库来推导整个市场的情况,来支持其购买媒介资源的依据.

     这是有历史原因的,早期的电视,户外广告等都是单向传播的媒体.

     早期电视媒体及户外广告,媒介售卖的其实是时间长度价值,

     电视台媒体的播出时间资源总和其实是有限的.毕竟用户总要从中选择一个节目观看.

     在计算样本库最小基数时 电视的总播出时间和用户的基数可以认为是不变的.

     在电视机时代,样本库的调研方式是很有效的,至于样本库如何选择,最终采样的细节,我这里不探讨.

     但样本库的基数需要参考整个市场的基数,电视面对的个体是家庭,国内有多少家庭,那么采用最少的样本库的规模,大致是多少.

     样本库的方式有哪些缺陷?

     样本库的方式对于大流量精品内容的分析,是可行的.但对长尾的检测对象的分析会有很大的问题.

     这个和alexa的原理是一样的,往往alexa排名对于大站是比较靠谱的,网友可以找找相关文章.

    我们看到国内几个做数据检测的公司,都依赖于样本库的方式来做推导.

     比如admaster,秒针等公司分析的 广告既得流量,这些流量的量,远大于受众轮廓分析维度(地域,年龄,职业),不管怎么分配,都能得出大部分的流量归属. 这种样本库的分析方法是可行的.

    而同时我看到一家神奇的公司,艾瑞同学,通过样本库(20W)的方式 可以神乎其技的调研各种(长尾)内容,品牌的数据调研报告.我个人认为是有很大的问题的.逻辑上是行不通的.

    对于互联网数据检测这一块,秒针,admaster,GA的分析都是比较合理,逻辑上可行的.原因上面已经阐述过.

    互联网的内容分析,能不能通过样本库的方式来做? 答案是 大流量内容的可以,长尾流量的内容是行不通的.除非样本库规模足够大.

     互联网的内容 每年呈几何级数的爆炸式增长,用户与内容之间的距离越来越远,在用户周围充斥各种内容.也正是web2.0的这种大环境下,google,百度公司的价值凸显出来的原因,在早期内容不足的情况下,网友只需关注门户网站就好了.

     互联网的视频内容,网友可以随意点播.用户对于互联网的使用对象 是整个互联网网站+客户端,或单机客户端。摆在用户前面的是海量的内容,及有限的时间. 简单的通过(1000W以下)人为协商安装软件样本库去分析长尾内容是极度不靠谱的.

    在理论层面,网络的、数据传播,在主干线路,电信、移动运营商平台,走海底光缆各种途径.可以设置种种的检测关卡,都可以监控所有HTTP请求的数据,然后统一分析内容的欢迎程度,这也是极度靠谱的,Google做DNS解析,恐怕也是想知道什么内容好,什么内容差吧。

    对于用户的分析,依赖于 平台级的互联网产品,比如百度,腾讯庞大的用户群,依赖于用户行为的分析,可以分辨出用户的属性.

     这种方式获得数据,也远好于样本库的分析用户。

    因此某家公司依赖于样本库的数据检测公司,全网检测数据,发布各种长尾内容数据分析报告.这种数据是极度不靠谱的. 如果是大流量的精品内容数据,这家公司又是没有价值的,因为百度指数,google trends比他们好N倍,样本库 尼玛呀。

    所以 我力劝这种公司早点关闭这种不靠谱的部门,做咨询公司该干的事情吧.

    在互联网文字时代,判断内容的优劣,做的最好的是搜索引擎,百度与google.其他公司都是纸老虎.

     至于在视频和图片时代,google 公司也是牛B的一塌糊涂,百度是纸老虎.

建议继续学习:

  1. 人肉云计算    (阅读:2040)
QQ技术交流群:445447336,欢迎加入!
扫一扫订阅我的微信号:IT技术博客大学习
<< 前一篇:谣言的传播与辟谣
后一篇:电商价格战 >>
© 2009 - 2024 by blogread.cn 微博:@IT技术博客大学习

京ICP备15002552号-1