IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

标签:元数据管理

共 2 篇相关文章

IT 累计浏览 2,266

namenode 内部关键数据结构简介

这篇讲的是HDFS NameNode内部那些支撑起整个HDFS元数据管理的核心数据结构。作者从FsImage与EditLog的协作机制入手,拆解了NameNode如何保证元数据的持久化与高可用,比如详解了SecondaryNameNode并非“第二NameNode”而是用于合并FsImage和EditLog的辅助角色。 文章进一步剖析了BlockMap和INode这两者如何将抽象的文件逻辑视图映射到实际的物理块存储上。其中对INode树结构的分析很细致,展示了目录与文件是如何以树状组织在内存中的。作者还特别提到了在Hadoop 2.x引入HA(高可用)架构后,元数据操作日志(EditLog)变为多副本写入Quorum Journal Manager的设计,以及它如何与ZKFC配合实现故障自动切换。 对于想理解HDFS为什么能高效管理海量文件元数据的读者来说,这篇文章提供了一个不错的内部视角。它把看似复杂的NameNode核心,拆解成了几个关键且清晰的组件,并说明了它们各自的职责与协作方式。

IT 累计浏览 3,482

Hive 随谈(二)

这篇讲的是 Hive 系列文章的第二篇,标题“随谈”暗示了风格较为轻松,是作者基于实践经验的分享。从开头“结构如图所示”来看,文章很可能从 Hive 的整体架构或核心组件入手,逐步展开讨论。 作为系列文章,它承接了第一篇可能打下的基础,深入探讨了 Hive 在实际使用中的某个具体方面,或许是对架构中某个关键模块的剖析,或是对特定工作流下设计选择的辨析。虽然信息有限,但能感觉到作者意在分享一些教科书上不太会细说、但在实际工作中很有分量的见解。对于正在使用或打算深入 Hive 的读者来说,这种源自实践的“随谈”往往能提供更贴近生产环境的视角和经验参考。