IT技术博客大学习 共学习 共进步

标签:HLLC

共 1 篇相关文章

IT 浏览 1,960

HLLC基数估算算法在腾讯数据仓库TDW中应用

分布式数据仓库(TDW)是一个以hive + hadoop为基础的大规模分布式系统,它提供了一种类SQL语言(称为HQL)让用户可以方便在其上进行编程开发。在数据分析领域,经常需要计算数据集不同元素的唯一值(Distinct值),也称为基数计算。 精确的基数计算需要消耗过多的计算资源,当数据量非常大时,这种资源的消耗就更加严重。因此在大数据领域,采用估值算法降低基数计算的成本成为一种新的选择。