IT技术博客大学习 共学习 共进步

分布式计算平台Hadoop 发展现状乱而稳定的解读

MySQLOPS 数据库与运维自动化技术分享 2012-05-02 23:41:23 浏览 3,804 次

导读

雅虎开发者Doug Cutting六年前创建了一个用于管理,存储和分析大量数据的分布式计算平台hadoop,现在大家也称云计算平台,用他儿子的玩具大象命名,并把它交给阿帕奇软件基金会。鉴于围绕Hadoop建立的整个行业的迅速,这会使某些人觉得非常惊讶,那就是阿帕奇软件基金会最近才推出了Apache Hadoop 1.0——被认为是足够稳定而成为“企业就绪”的第一个版本。

Hadoop乱象

雅虎开发者Doug Cutting六年前创建了一个用于管理,存储和分析大量数据的平台,用他儿子的玩具大象命名,并把它交给阿帕奇软件基金会。鉴于围绕Hadoop建立的 整个行业的迅速,这会使某些人觉得非常惊讶,那就是阿帕奇软件基金会最近才推出了Apache Hadoop 1.0——被认为是足够稳定而成为“企业就绪”的第一个版本。

但这并没有延缓创业和建立供应商加入Hadoop的队伍。随着大数据这一热点,解决方案提供商需要跟上行业中的关键角色。以下就是围绕Hadoop的11个创新业务。

1. Cloudera

Cloudera,成立于2008年,也许是最成立的年轻的致力于 Hadoop的公司。 帕洛阿尔托,加州公司提供了一个Apache Hadoop软件的商业发行版叫做Cloudera Enterprise,它包括支持,咨询服务,培训和一个称为Cloudera Management Suite的软件。

一个例子说明了Cloudera的技术如何寻求广泛使用,Oracle在一月表示它已经将Cloudera的Hadoop发行版和Cloudera Manager整合到Oracle Big Data Appliance中。

Cloudera在2009年聘请Doug Cutting担任“架构师”时有了炫耀的资本。Cutting是原阿帕奇软件基金会Hadoop项目的创始人并且是现任董事。

2. Datameer

业务产生和存储的数据量每三年翻一番。加之数据是结构化和非结构化信息的混合体这一事实,往往分散在不同的IT系统,对于有商业智能项目的任何公司都是一个严重的挑战。

Datameer分析解决方案始于Datameer(2009年于加州圣马刁成立),用一个电子表格界面与Apache Hadoop结合,帮助企业用户对非常大的数据集进行分析——多种来源的结构化和非结构化数据——无需编程。

虽然分析大型数据一直是一个大的公司难题,但Datameer作出令人信服的观点:中小企业现在面临着类似的挑战,成本低的商品存储使收集大量的数据在经济上可行的。

3. Hadapt

Hadapt称其Hadapt自适应分析平台结合了Hadoop和关系数据库管理软件的优点成为一个单独的数据平台。其成果就是一个高性能分析系统,对结构化和非结构化数据都能很好处理。

公 司成立于2010年七月,在十月的第一轮融资公司募集950万美元并在十一月推出了Hadapt 1.0,为潜在客户试用。依照公司称,该软件对Hadoop和其蜂巢数据仓储技术做了“巨大的性能改进”。软件有云和企业版,不久还有一个免费的社区版。 它们可运行在所有主流的Hadoop发行版上,包括Amazon EMR, Apache, Cloudera, EMC, Hortonworks, IBM和MapR。

4. Hortonworks

2011年七月推出的Hortonworks是雅虎Hadoop工程团队的一个分拆,提供其自有的 Hadoop版本称为Hortonworks数据平台。相对年轻的公司,阿帕奇项目的贡献者,这都被广泛视为Cloudera的主要竞争对手。一月公司推 出Hortonworks数据平台第二版,通过下一代MapReduce架构提供更好的性能和可用性,用Hadoop分布式文件系统(HDFS)提高可扩 展性,并且由HDFS名字节点的高可用性提高了数据完整性。

对了,加利福尼亚州,桑尼维尔,公司的名字来自于苏斯博士的书《霍顿与无名氏》,为了符合Hadoop大象主题。

5. HStreaming

虽然Hadoop事实上也许是处理大量数据的引擎,但它主要用于批处理。实时分析数据把Hadoop的价值提升到一个全新的水平。这就是HStreaming的由来。

成立于2010年,位于芝加哥的HStreaming是一个建立在Hadoop上的可扩展的,可持续的数据分析系统。它可以分析,可视化并处理大量连续数据——比如一个金融交易系统——实时。

6. Hyve Solutions

虽然大多数Hadoop相关的公司都是独立创业,但Hyve Solutions是联强IT经销商的一个部门。成立于去年,Hyve Solutions提供了成套的配置,称为Big D Series 8,公司表示它能让开发基于Hadoop的大数据分析系统在数天完成而不是数月。

Hyve Solutions平台包含了Zettaset的基于Hadoop的容错系统,Arista Networks的云网络设备,Solarflare Communications的网络接口硬件和软件,还有Fusion-io的闪存数据存储技术。

7. Karmasphere

位于加州库比提诺的Karmasphere称自己为“大数据智能”引领者,其软件工具可从Hadoop提取和分析数据。

Karmasphere Analyst为信息分析员提供对Hadoop中结构化和非结构化数据的访问,使他们能够进行点对点查询,对结果可视化并可操作。Karmasphere Studio提供了用于开发运行于Hadoop自定义算法的工具。Karmasphere Analytics Engine(分析引擎)是公司软件的基础。

Karmasphere,2010年三月推出,已经于几乎Hadoop的所有供应商和组织合作 过,包括阿帕奇软件基金会,IBM,Cloudera,亚马逊云计算服务(AWS)和Hortonworks。公司在二月推出Karmasphere Analyst 1.8,带有新的并行查询功能。

8. MapR Technologies

MapR Technologies提供了一个Apache Hadoop的发行版,将之与Cloudera和HortonWorks还有其他公司竞争。公司成立于2009年年六月,有一些关键优势,包括与EMC有 战略联盟,并且在八月的第二轮融资募集2000万美元资金。

MapR位于加州圣若泽,十二月的MapR Hadoop发行版1.2有新的虚拟机功能,高性能的本地访问库,Mac和Windows客户端,和利用MapReduce 2.0技术的能力。

9. Mortar Data

Mortar Data宣称自己是“Hadoop,没有复杂性”。总部设在纽约,该公司为那些“没有充分利用数据”的客户提供基于云的Hadoop服务,并表示它可以请客户来且运行不到一小时。

Mortar Data,成立于2010年,为客户的大数据项目建立私有的,按需求的Hadoop集群,并使用Pig和Python建立“为执行优化过的工作”。亚马逊 的S3云存储用于数据读写。客户只在运行他们任务时支付,没有与之相关的基础设施和雇佣和培训工程师的费用。

10. Tidemark Systems

Tidemark Systems,位于加州红木城,开发其称为第一个企业级性能管理平台和为云计算建立的应用。因为Tidemark EPM应用系统是建立在Cloudera的Hadoop发行版基础上,大数据随之而来,它可以从海量复杂数据中进行提取。

公司成立于2010年,Tidemark主要面向制造业,消费电子产品,零售业和高科技公司上的应用。一月公司从风险投资家和仁科创始人戴夫杜菲尔德获得240万美元的第三轮融资。

11. Zettaset

最早与2009年以GOTO Metrics的名字推出,Zettaset已经开发出建立在Hadoop和其他用于聚集和大量数据分析的开源技术上的一个容错系统。依照公司所称,该技术有助于掌控整个企业Hadoop系统的健康度,安全性和管理。

Zettaset位于加州山景城,在十二月推出其第四版,带有新的服务管理特性和一个独特的可视化用户界面。公司在七月(获得三百万美元融资后)根据zettabyte更名——等于一百万petabyte或一亿terabyte的数据。

文章转载自:http://cloud.doit.com.cn/article/2012/0416/9007432.shtml

建议继续学习

  1. 分布式缓存系统 Memcached 入门 (阅读 16,042)
  2. Zookeeper工作原理 (阅读 11,942)
  3. Facebook的实时Hadoop系统 (阅读 11,402)
  4. GFS, HDFS, Blob File System架构对比 (阅读 10,342)
  5. Zookeeper研究和应用 (阅读 9,341)
  6. 一致性哈希算法及其在分布式系统中的应用 (阅读 9,043)
  7. 分布式日志系统scribe使用手记 (阅读 8,842)
  8. 分布式哈希和一致性哈希 (阅读 8,665)
  9. HBase技术介绍 (阅读 7,942)
  10. 分布式系统的事务处理 (阅读 7,244)