IT技术博客大学习 共学习 共进步

如何萃取海量数据的价值

Tenly 的互联网哲学 2011-06-02 23:27:38 浏览 3,284 次

    周末看到资深电商人士微博,提到网络营销过程中数据挖掘与分析的妙处。某员工通过技术手段对广告与访客监测,通过对收集数据的分析,判断新产品未来的销量,从而影响公司的营销策略与商品运营。

    这些年来,我一直在网络营销领域与工具及数据打交道,这样的案例比比皆是。广告主,通过对历史营销数据的分析,定位自己的目标受众;媒体代理公司,通过对媒体广告效果的数据分析,有效优化媒介预算配置,实现ROI提升;搜索引擎公司,通过对海量数据的挖掘,寻找合理算法模型,达到广告有效匹配与精准投放,提高流量变现。

    数据的重要,不需要强调,可以在任何一本商业理论的书籍中寻找到强调它的段落。此文旨在分享在网络营销领域,如何获取数据价值的具体方法论。

    获取数据价值的方法论我认为有三步:监测部署、数据仓储、挖掘萃取。整个过程是动态流动的,就像黄金生产:先部署机器把矿石挖回来,再用厂房对矿石进行存储,再对这些矿石进行提炼成金。

    1、监测部署

    网络营销,英文称为Digital Marketing,即数字营销,意味着有一个天生特点:整个营销的过程都有数字(数据)产生,且这些数据天生易被记录。就像前面关于黄金的比喻,这种矿石海量且容易获取。这种事情的门槛不高,市场上很多参与者。

    通过技术手段,可以监测到广告端广告展现了多少次,被点击了多少次;还可以知道网站端访问者在网站上去了哪些页面;甚至还能够知道社会化媒体谁在谈论什么,他们态度与喜好。

    现在许多广告主都开始注意到这点的重要性,采用了很多方法去部署监测,从而收集营销项目的数据表现。

    2、数据仓储

    很多广告主只停留在数据部署阶段监测而来的简单数据报告,却忽略了长期数据积累的重要性。对营销数据系统化、长周期的规划仓储,有利于提升营销前期判断决策能力与网络营销的ROI。

    这个过程需要将不同时间段、不同渠道得来的数据进行有效整理、整合,通过技术手段索引压缩,并分布式多备份地放在服务器集群。这个过程既要保证监测收集回来的数据安全保留,又要通过索引存储为第三步的萃取数据价值打下基础。这在技术层面是门槛很高的环节,需要服务商建立多备份的分布式服务器网络,保证数据安全、有效管理。

    我曾经向客户举例:如果你买了十本书,你可以很容易找到需要的书;但是如果你有十万本书,就没有办法找到你需要的了,这就意味着这十万本书变成无用的、作废的。所以需要有很高科技的方法帮你把十万本书以及后面陆续买进来的书有效地归类与放置,这样主人才可能随时看想看的书,才能发挥书的价值,而数据仓储就是这个重要环节。

    3、挖掘萃取

    在云计算盛行的当下,数据被云端有效存储与集中管理后,数据挖掘成了热门的学术话题。在本环节最需要科学的挖掘方法来提炼“金子”。数据挖掘领域,人们最常举的例子就是关联规则算法中啤酒与尿布的案例:超市通过数据挖掘发现买啤酒的男士更倾向于一起买尿布,于是超市将尿布与啤酒放在一起,从而提升了销量。

    同样在网络营销领域,在数据仓储阶段后,需要优化配置服务器资源,不间断地进行单一维度的、交叉多维度分析,源源不断地萃取论证结果,提炼出结论帮助决策。如我们遇到过:广告主对多种媒体长期投放后,发现不同媒体受众对品牌态度出现明显差异,深入研究后发现B类媒体受众对该品牌态度的频次曲线更低。因此广告主更加注重了在B类媒体投放时的频次控制,避免用户因“广告过曝”造成的反感情绪。

    当然,在电商客户的实践过程中,更容易在海量数据中提炼出能够立竿见影带来销量提升的价值点。长期监测发现,某电子商务网站70%以上成交量并不是由广告点击直接带来的。于是我们为客户研究这些未点击广告造成订单用户的Cookie特征。挖掘发现这些用户部分是该电商网站广告的曝光覆盖者,只是当时他们没有产生广告点击,之后通过搜索引擎过来的。对比分析多媒介渠道后,发现媒体A最容易(成本最优)带来这种用户,于是客户加大了该媒体的投放。

建议继续学习

  1. 数据分析中常用的数据模型 (阅读 7,703)
  2. 五个免费开源的数据挖掘软件 (阅读 6,343)
  3. 谈谈与数据打交道的工作 (阅读 5,224)
  4. 页面停留时间和网站停留时间详解 (阅读 5,045)
  5. 如何对统计数据进行分析 (阅读 4,982)
  6. 音乐智能推荐 (阅读 4,225)
  7. 浅析十三种常用的数据挖掘的技术 (阅读 4,204)
  8. 使用Weka进行数据挖掘 (阅读 4,123)
  9. WEB数据挖掘相关术语整理 (阅读 3,443)
  10. 网络数据的背后――网络日志的分析指标 (阅读 3,042)