mp mp.weixin.qq.com / 2019-04-27 21:02 / by @zhisheng_blog

【生活现场】从电影字幕到 Hive 工作原理解析

1、hive是一个数据仓库，存储大数据，主要用来做OLAP分析。

2、hive底层是hdfs，它提供了sql来查询数据。

3、hive的原理是将sql翻译成map-reduce任务。

4、数据的导入导出可以用工具sqoop，原理也是把命令翻译成map-reduce任务。

赞过的人

@技术头条、 @zhisheng_blog

zh www.zhengwenfeng.com / 2025-11-12 00:32

Go协程池深度解析：原理、实现与最佳实践

文章系统解析 Go 协程池的实现原理和实践，包括为何需要协程池、基本实现方式、协程数设置依据及性能对比测试。示例代码演示如何手动构建协程池，并推荐三种高性能第三方库（如 ants、tunny）。适合进行高并发控制和资源管理优化的场景。

查看详情

无图

bj bjt.name / 2025-11-12 00:27

合成控制法的原理和扩展实现

本文介绍了合成控制法（Synthetic Control Method，SCM）原理及其扩展：首先通过选择多个未受干预单位并加权构建一个“合成对照组”，以模拟受干预单位在无干预情况下的表现；然后详细推导了权重 W 与协变量权重矩阵 V 的嵌套最优化过程；最后介绍了“合并损失函数 + 正则化（Lasso/ElasticNet）”的扩展方案，以增强模型稳健性。适用于政策或市场活动影响评估。

查看详情

无图

ix ixyzero.com / 2025-01-12 12:08

本文讨论了在 Hive SQL 中处理单引号和双引号的技巧。作者建议：
1、显示包含单引号的字符串：使用双引号括起来，因在单引号内直接显示单引号的方法尚未找到。
2、显示包含双引号的字符串：使用单引号括起来，或对内部的双引号进行转义。
3、减少麻烦：尽量使用双引号括起字符串，因为对双引号的转义更方便有效。
作者还提供了测试 SQL 示例，展示了不同情况下单双引号的使用效果。该内容适合从事 Hive SQL 开发的工程师、数据分析师以及需要处理 Hive SQL 字符串转义问题的技术人员阅读。

查看详情

无图

cr crossoverjie.top / 2024-11-23 21:44

StarRocks 物化视图刷新流程和原理

物化视图通过预计算显著提升查询性能，其刷新方式分为全量刷新和增量刷新。全量刷新适合一致性要求高的场景，增量刷新则高效应对数据变更。StarRocks独特的分布式引擎和自动优化策略，让数据处理更高效。你更倾向用哪种刷新方式？

查看详情

无图

ix ixyzero.com / 2024-11-02 17:02

从Hive SQL的一个正则表达式说起

本文讨论了在 Hive SQL 中使用正则表达式筛选特定 IP 范围（172.16.0.0 到 172.31.255.255）的实现方法，详解了 `[16-31]` 范围的表达方式，给出了完整的正则表达式方案，帮助精准匹配指定的 IPv4 地址范围。

查看详情

无图

ix ixyzero.com / 2024-11-02 16:52

Hive SQL如何找出连续日期数据之间的较大波动

本文介绍了在 Hive SQL 中如何识别连续日期数据的显著波动，适用于异常检测。使用窗口函数 `LAG` 和 `LEAD` 提取前后日期数据，通过对比当天与昨日、近几日的均值或分位数来判定异常。文中提供了查询示例，通过阈值设定（如倍数增加或p90分位数）识别异常值，帮助分析用户行为或数据波动，为风控和数据监控提供技术支持。

查看详情

无图

ix ixyzero.com / 2024-11-02 16:50

Hive SQL如何找出最大的连续操作天数

本文探讨了在 Hive SQL 中计算用户的最大连续操作天数的实现方法。通过窗口函数和日期差计算，文章详细展示了如何找出连续在线的天数，适用于数据分析中的活跃用户筛选。同时还介绍了结合分位数和平均值分析操作频率的查询技巧。

查看详情

无图

ix ixyzero.com / 2024-11-02 16:50

Hive SQL 中的分号、下划线等tips整理

本文整理了 Hive SQL 中的一些实用技巧，包括使用 `\073` 替代分号进行字符串分割、通过转义实现下划线匹配、布尔类型的条件比较，以及在复杂类型字段（如数组或映射）中插入空值的操作方法。这些技巧可以帮助开发者在处理特殊符号和复杂数据类型时，避免语法错误和查询结果不准确的问题，为 Hive SQL 查询优化提供了实用参考。

查看详情

无图

bl blog.devtang.com / 2024-11-02 16:25

第一性原理思考：解决问题的通用框架(续)

本文深入探讨了几种思维框架，包括28原理、谬误推导和终局思维等，帮助在决策中聚焦关键因素，判断信息真伪。文章还列举了常见误区，如误把相关性当因果、从众心理和情绪化决策等，提醒在信息泛滥中保持清晰的逻辑思维。通过案例分析，这些思维模式能有效提升问题解决和决策的效率。

查看详情

无图

bl blog.devtang.com / 2024-11-02 16:20

第一性原理思考：解决问题的通用框架

本文介绍了解决问题的通用框架，基于“第一性原理”思考，分为信息收集、建模、判断和策略迭代四步。通过广泛收集经验与原始数据，建立问题模型，量化核心指标并不断优化策略，可以逐步解决复杂问题。框架虽无法保证执行到位，但帮助接近真实问题，为复杂决策提供可靠支持。

查看详情

无图

【生活现场】从电影字幕到 Hive 工作原理解析

赞过的人

发表评论

相关分享