Impala:新一代开源大数据分析引擎
这篇讲的是Cloudera推出的Impala,一个旨在解决Hive查询速度瓶颈的开源大数据分析引擎。文章详细拆解了Impala如何借鉴Google Dremel的思想,采用列式存储(Parquet格式)和多层查询树架构,摆脱MapReduce的批处理束缚,从而在交互式查询上实现数量级的性能提升。 作者将Impala与同期的Shark、Apache Drill进行了横向对比。Impala的优势在于相对成熟的工程实现和快速的查询响应,但其容错机制较弱,且开源生态初期主要绑定Cloudera自家发行版。相比之下,基于Spark的Shark在内存计算和容错性上更有优势,而Apache Drill则更具平台开放性,尽管当时开发进度稍慢。文章通过性能对比图表指出,尽管Impala和Shark都远超Hive,但与Amazon Redshift等商业MPP数据库仍有差距。 文章的最终观点是,大数据分析的未来不在于某一技术的独胜,而在于Hadoop生态(如YARN)将兼容并包,让不同引擎各司其职——Impala这类系统擅长秒级交互查询,而MapReduce则继续处理大规模批处理任务。这场技术竞争正推动大数据分析变得更成熟、易用和普惠。