【生活现场】从电影字幕到 Hive 工作原理解析 (mp.weixin.qq.com)

【简介】

1、hive是一个数据仓库,存储大数据,主要用来做OLAP分析。

2、hive底层是hdfs,它提供了sql来查询数据。

3、hive的原理是将sql翻译成map-reduce任务。

4、数据的导入导出可以用工具sqoop,原理也是把命令翻译成map-reduce任务。

点击查看原文 >>

@zhisheng_blog 2019-04-27 21:02 / 0个评论
赞过的人: @技术头条 @zhisheng_blog
要不要再学学下面的文章?
Hive SQL中的单引号和双引号 (ixyzero.com)
本文讨论了在 Hive SQL 中处理单引号和双引号的技巧。作者建议:
1、显示包含单引号的字符串:使用双引号括起来,因在单引号内直接显示单引号的方法尚未找到。
2、显示包含双引号的字符串:使用单引号括起来,或对内部的双引号进行转义。
3、减少麻烦:尽量使用双引号括起字符串,因为对双引号的转义更方便有效。
作者还提供了测试 SQL 示例,展示了不同情况下单双引号的使用效果。该内容适合从事 Hive SQL 开发的工程师、数据分析师以及需要处理 Hive SQL 字符串转义问题的技术人员阅读。
by @技术头条 2025-01-12 12:08 查看详情
StarRocks 物化视图刷新流程和原理 (crossoverjie.top)
物化视图通过预计算显著提升查询性能,其刷新方式分为全量刷新和增量刷新。全量刷新适合一致性要求高的场景,增量刷新则高效应对数据变更。StarRocks独特的分布式引擎和自动优化策略,让数据处理更高效。你更倾向用哪种刷新方式?
by @技术头条 2024-11-23 21:44 查看详情
从Hive SQL的一个正则表达式说起 (ixyzero.com)
本文讨论了在 Hive SQL 中使用正则表达式筛选特定 IP 范围(172.16.0.0 到 172.31.255.255)的实现方法,详解了 `[16-31]` 范围的表达方式,给出了完整的正则表达式方案,帮助精准匹配指定的 IPv4 地址范围。
by @技术头条 2024-11-02 17:02 查看详情
Hive SQL如何找出连续日期数据之间的较大波动 (ixyzero.com)
本文介绍了在 Hive SQL 中如何识别连续日期数据的显著波动,适用于异常检测。使用窗口函数 `LAG` 和 `LEAD` 提取前后日期数据,通过对比当天与昨日、近几日的均值或分位数来判定异常。文中提供了查询示例,通过阈值设定(如倍数增加或p90分位数)识别异常值,帮助分析用户行为或数据波动,为风控和数据监控提供技术支持。
by @技术头条 2024-11-02 16:52 查看详情
Hive SQL如何找出最大的连续操作天数 (ixyzero.com)
本文探讨了在 Hive SQL 中计算用户的最大连续操作天数的实现方法。通过窗口函数和日期差计算,文章详细展示了如何找出连续在线的天数,适用于数据分析中的活跃用户筛选。同时还介绍了结合分位数和平均值分析操作频率的查询技巧。
by @技术头条 2024-11-02 16:50 查看详情
Hive SQL 中的分号、下划线等tips整理 (ixyzero.com)
本文整理了 Hive SQL 中的一些实用技巧,包括使用 `\073` 替代分号进行字符串分割、通过转义实现下划线匹配、布尔类型的条件比较,以及在复杂类型字段(如数组或映射)中插入空值的操作方法。这些技巧可以帮助开发者在处理特殊符号和复杂数据类型时,避免语法错误和查询结果不准确的问题,为 Hive SQL 查询优化提供了实用参考。
by @技术头条 2024-11-02 16:50 查看详情
第一性原理思考:解决问题的通用框架(续) (blog.devtang.com)
本文深入探讨了几种思维框架,包括28原理、谬误推导和终局思维等,帮助在决策中聚焦关键因素,判断信息真伪。文章还列举了常见误区,如误把相关性当因果、从众心理和情绪化决策等,提醒在信息泛滥中保持清晰的逻辑思维。通过案例分析,这些思维模式能有效提升问题解决和决策的效率。
by @技术头条 2024-11-02 16:25 查看详情
第一性原理思考:解决问题的通用框架 (blog.devtang.com)
本文介绍了解决问题的通用框架,基于“第一性原理”思考,分为信息收集、建模、判断和策略迭代四步。通过广泛收集经验与原始数据,建立问题模型,量化核心指标并不断优化策略,可以逐步解决复杂问题。框架虽无法保证执行到位,但帮助接近真实问题,为复杂决策提供可靠支持。
by @技术头条 2024-11-02 16:20 查看详情
使用Rust捕获和解析网络包 (colobu.com)
这篇文章介绍了如何使用Rust编程语言捕获和解析网络包,以提取TCP时间戳并计算网络延迟。作者利用pcap库捕获网络包,并使用pdu库解析TCP选项中的时间戳信息,结合哈希映射存储五元组信息以计算往返时间。文中提供了代码示例,展示了在Mac系统上实现这一过程的步骤。
by @技术头条 2024-08-06 07:53 查看详情
Memcached的存储原理解析 (www.codedump.info)
最近工作上的需要,需要做一个LRU形式管理内存的分配器,首先想到的就是Memcached这个项目。早些年粗略的看过一些,有个大体的了解,这一次看下来发现其LRU算法做了不少的改动。
by @技术头条 2024-03-21 23:21 查看详情