Hadoop Hive迁移至MaxCompute (yq.aliyun.com)

【简介】

本文向您详细介绍如何将 Hadoop Hive 数据迁移到阿里云MaxCompute大数据计算服务上。

点击查看原文 >>

@可耐芊小仙女 2019-05-06 15:41 / 0个评论
要不要再学学下面的文章?
Hive SQL中的单引号和双引号 (ixyzero.com)
本文讨论了在 Hive SQL 中处理单引号和双引号的技巧。作者建议:
1、显示包含单引号的字符串:使用双引号括起来,因在单引号内直接显示单引号的方法尚未找到。
2、显示包含双引号的字符串:使用单引号括起来,或对内部的双引号进行转义。
3、减少麻烦:尽量使用双引号括起字符串,因为对双引号的转义更方便有效。
作者还提供了测试 SQL 示例,展示了不同情况下单双引号的使用效果。该内容适合从事 Hive SQL 开发的工程师、数据分析师以及需要处理 Hive SQL 字符串转义问题的技术人员阅读。
by @技术头条 2025-01-12 12:08 查看详情
从Hive SQL的一个正则表达式说起 (ixyzero.com)
本文讨论了在 Hive SQL 中使用正则表达式筛选特定 IP 范围(172.16.0.0 到 172.31.255.255)的实现方法,详解了 `[16-31]` 范围的表达方式,给出了完整的正则表达式方案,帮助精准匹配指定的 IPv4 地址范围。
by @技术头条 2024-11-02 17:02 查看详情
Hive SQL如何找出连续日期数据之间的较大波动 (ixyzero.com)
本文介绍了在 Hive SQL 中如何识别连续日期数据的显著波动,适用于异常检测。使用窗口函数 `LAG` 和 `LEAD` 提取前后日期数据,通过对比当天与昨日、近几日的均值或分位数来判定异常。文中提供了查询示例,通过阈值设定(如倍数增加或p90分位数)识别异常值,帮助分析用户行为或数据波动,为风控和数据监控提供技术支持。
by @技术头条 2024-11-02 16:52 查看详情
Hive SQL如何找出最大的连续操作天数 (ixyzero.com)
本文探讨了在 Hive SQL 中计算用户的最大连续操作天数的实现方法。通过窗口函数和日期差计算,文章详细展示了如何找出连续在线的天数,适用于数据分析中的活跃用户筛选。同时还介绍了结合分位数和平均值分析操作频率的查询技巧。
by @技术头条 2024-11-02 16:50 查看详情
Hive SQL 中的分号、下划线等tips整理 (ixyzero.com)
本文整理了 Hive SQL 中的一些实用技巧,包括使用 `\073` 替代分号进行字符串分割、通过转义实现下划线匹配、布尔类型的条件比较,以及在复杂类型字段(如数组或映射)中插入空值的操作方法。这些技巧可以帮助开发者在处理特殊符号和复杂数据类型时,避免语法错误和查询结果不准确的问题,为 Hive SQL 查询优化提供了实用参考。
by @技术头条 2024-11-02 16:50 查看详情
Hadoop安全学习 (ixyzero.com)
Hadoop集群基本都放在内网,有一层网络隔离做保护,懂这个且想利用和能利用这个做坏事的人比较少,一般不容易出问题;对于没放在内网或者没有做隔离的那些公司或团队,安全意识和能力肯定是有较大欠缺,数据泄露的渠道和方式很多,不缺这一个,都不需要用这种方式来搞数据;使用第三方云服务的公司或团队一般不需要操心底层服务的安全问题,只需要关注上层应用的账号安全和使用安全等问题就行。
by @技术头条 2023-10-30 23:38 查看详情
Hive SQL中的like和rlike (ixyzero.com)
以前知道SQL中的 like 和 rlike 是有区别的,差别主要在于前者只支持 百分号(%)——匹配任意数量的任意字符,和下划线(_)——匹配一个任意字符 作为特殊字符,后者支持正则匹配——功能更强大,但速度一般也较慢。所以我一般是简单的、希望速度快些的情况下用like做模糊匹配,其它场景用rlike实现。但是近期在分析日志的时候发现Hive SQL中的 like 和 rlike 除了在功能上有区别之外,过滤生成的结果也有差异,比较奇怪,在此记录一下,方便后面参考。
by @技术头条 2023-10-24 23:50 查看详情
Dubbo 应用切换 ZooKeeper 注册中心实例,流量无损迁移 (mazhuang.org)
首先思考一个问题:如果 Dubbo 应用使用 ZooKeeper 作为注册中心,现在需要切换到新的 ZooKeeper 实例,如何做到流量无损?

本文提供解决这个问题的一种方案。
by @技术头条 2023-09-10 23:30 查看详情
廉价的家用工作站方案:ThinkPad 存储升级及数据迁移 (soulteary.com)
最近,给当台式服务器一样使用了两年的 ThinkPad 做了存储升级和数据迁移,对硬盘也做了额外的散热处理。本篇文章里,我们分享下相关的经验和思考,希望能够帮助到有同样诉求的你。
by @技术头条 2023-09-10 23:14 查看详情
ARouter 迁移到 TheRouter 使用感受 (juejin.cn)
之前项目中一直用的是 ARouter,但是一直很卡,特意用adb查了一下ARouter的初始化用了131ms。最近发现货拉拉开源了一套更先进的路由框架 TheRouter,还宣传能无缝切换,趁着中秋放假就赶紧拿来试了一下,真香!!
by @kymjs张涛 2022-09-13 10:42 查看详情