Hadoop++:Hadoop的局部性能改良
浏览:1597次 出处信息
Hadoop++是对Hadoop Map Reduce的非入侵式优化,通过自定义Hadoop框架中的split等函数来提升,提升查询和联接性能。 项目由德国Saarland大学Jens Dittrich教授主持。项目主页是 http://infosys.uni-saarland.de/hadoop++.php。
Hadoop++对Hadoop的优化主要是Trojan Index、Trojan Join和Trojan Layout三方面。
1、Trojan Index
Trojan index的核心是将数据组织成依次由数据、索引、Header和Footer这四部分构成的split,其中Footer是split的分界符,最后一个Footer一定位于文件末尾。索引构建时由MapReduce完成排序。查询时split函数从文件末尾开始根据Footer信息解析出各个split,itemize函数根据搜索范围条件快速定位满足条件的内容。
以数据库技术类比,Trojan Index类似于索引组织表。
2、Trojan Join
Trojan Join根据联接属性将来自多表的相关记录分到一个split,组织成类似于Trojan Index的结构,itemize出来的记录同时包含了参与联接的双方的属性,这样不再需要在查询时再根据联接属性用map/shuffle/reduce来计算联接。
以数据库技术类比,Trojan Join类似于多表聚簇。
3、Trojan Layout
类似于PAX,为block内部的数据组织方法,将查询中经常一起访问的属性组合在一起。不同复本用不同的Layout。根据负载计算最优的Layout,类似于背包算法。
以数据库技术类似,Trojan Layout类似于垂直分区,亮点是不同复本用不同的垂直分区。
建议继续学习:
- Facebook的实时Hadoop系统 (阅读:10585)
- hadoop rpc机制 && 将avro引入hadoop rpc机制初探 (阅读:5106)
- Hadoop的map/reduce作业输入非UTF-8编码数据的处理原理 (阅读:4604)
- Hadoop超级安装手册 (阅读:3981)
- 百度是如何使用hadoop的 (阅读:3930)
- Hadoop集群间Hadoop方案探讨 (阅读:3747)
- 使用hadoop进行大规模数据的全局排序 (阅读:3453)
- Hadoop安装端口已经被占用问题的解决方法 (阅读:2965)
- 分布式计算平台Hadoop 发展现状乱而稳定的解读 (阅读:2804)
- Hadoop现有测试框架探幽 (阅读:2800)
QQ技术交流群:445447336,欢迎加入!
扫一扫订阅我的微信号:IT技术博客大学习
扫一扫订阅我的微信号:IT技术博客大学习
<< 前一篇:蒙特霍尔问题与我那餐盒饭
文章信息
- 作者:风轻扬 来源: 风轻扬
- 标签: Hadoop
- 发布时间:2011-12-18 21:57:02
建议继续学习
近3天十大热文
- [55] IOS安全–浅谈关于IOS加固的几种方法
- [53] Oracle MTS模式下 进程地址与会话信
- [53] 如何拿下简短的域名
- [51] 图书馆的世界纪录
- [51] android 开发入门
- [50] 【社会化设计】自我(self)部分――欢迎区
- [47] Go Reflect 性能
- [46] 读书笔记-壹百度:百度十年千倍的29条法则
- [42] 视觉调整-设计师 vs. 逻辑
- [39] 界面设计速成