专题：MapReduce -- IT技术博客大学习 -- 共学习共进步！

利用MapReduce利器作开发，不论从思想上还是技能上都是新的体验。以下罗列下如何利用eclipse调试MR任务。 (本人环境：hadoop 1.0.2，部署在linux上，本地windows开发) 1、安装hadoop。先在linux上安装好hadoop，为更接近线上环进，我的是安装成Cluster 注意要远程访问相关端口，conf/mapred-site.xml中localhost:9001中需要换成ip加端口。 sh bin/start-all.sh启动，先按文档命令行跑一下example的wordcount。

即时流式数据 MapReduce

传统的 MapReduce 如 Hadoop, 是以任务的形式进行的 — 获取一批数据, 提交给系统, 然后获取结果. 但是, 有一些统计的需求是即时的, 统计任务需要持续的运行, 一旦数据生成, 便立即发给统计任务处理, 生成的结果”推”给接收者. 以一个网站用户在线时长统计的需求为例子, 那么系统就有这几个部分: 数据接收接收 Web Server(如 Apache/Nginx) 的 log, 例如使用 syslog. Mapper(格式转换) 依次输入以行为单位的原始的 Apache log, 输出一条或者多条结构化的数据. 这个输出将出 Reducer 进行下一步处理. Reducer(统计器) 不同的精度用不同的统计器, 因为统计结果必须在要求的精度时间内进行输出. 例如当精度要求是小时, 用户连续在线1个小时, 并且横跨在2个自然小时上,......

《big data glossary》之MapReduce

本文是对《big data glossary》第三章MapReduce的个人翻译，无版权在传统的关系数据库世界中，所有的处理都发生在信息被载入存储之后，使用特定的查询语言处理高度结构化和优化的数据结构。而由Google引领，然后被许多其他网络公司所接纳的替代方式是：创建一个读写任意格式文件的流水线，在每个阶段以文件的方式交换中间结果，并且跨机器分布计算。通常基于MapReduce方法进行分布式工作的方法都需要一套全新的工具，我将在下面介绍。 Hadoop 最初是由Yahoo！开发的一套Google MapReduce架构的克隆系统，但随后被开源。Hadoop帮助你的代码在跨机器的集群上运行。它负责对输入的数据分块，并发送到各自对应的机器，在每个分块上运行代码，监测运行的代码，将结果发送到下一步的处理阶段或者最终存储下来，执行发生在map和reduce阶段间的排序工作并将排序后的数据发送到

使用 Perl 中的 Gearman来实现 MapReduce

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（化简）".简单来讲，就是给大量的输入的 key/value 的键值对 reduced 成少量的key/value 的键值对。