Hive SQL如何找出连续日期数据之间的较大波动 (ixyzero.com)

【简介】

本文介绍了在 Hive SQL 中如何识别连续日期数据的显著波动,适用于异常检测。使用窗口函数 `LAG` 和 `LEAD` 提取前后日期数据,通过对比当天与昨日、近几日的均值或分位数来判定异常。文中提供了查询示例,通过阈值设定(如倍数增加或p90分位数)识别异常值,帮助分析用户行为或数据波动,为风控和数据监控提供技术支持。

点击查看原文 >>

@技术头条 2024-11-02 16:52 / 0个评论
赞过的人: @IT技术博客大学习
要不要再学学下面的文章?
从Hive SQL的一个正则表达式说起 (ixyzero.com)
本文讨论了在 Hive SQL 中使用正则表达式筛选特定 IP 范围(172.16.0.0 到 172.31.255.255)的实现方法,详解了 `[16-31]` 范围的表达方式,给出了完整的正则表达式方案,帮助精准匹配指定的 IPv4 地址范围。
by @技术头条 2024-11-02 17:02 查看详情
Hive SQL如何找出最大的连续操作天数 (ixyzero.com)
本文探讨了在 Hive SQL 中计算用户的最大连续操作天数的实现方法。通过窗口函数和日期差计算,文章详细展示了如何找出连续在线的天数,适用于数据分析中的活跃用户筛选。同时还介绍了结合分位数和平均值分析操作频率的查询技巧。
by @技术头条 2024-11-02 16:50 查看详情
Hive SQL 中的分号、下划线等tips整理 (ixyzero.com)
本文整理了 Hive SQL 中的一些实用技巧,包括使用 `\073` 替代分号进行字符串分割、通过转义实现下划线匹配、布尔类型的条件比较,以及在复杂类型字段(如数组或映射)中插入空值的操作方法。这些技巧可以帮助开发者在处理特殊符号和复杂数据类型时,避免语法错误和查询结果不准确的问题,为 Hive SQL 查询优化提供了实用参考。
by @技术头条 2024-11-02 16:50 查看详情
新一代实验分析引擎:驱动履约平台的数据决策 (tech.meituan.com)
本文介绍了美团履约技术平台的新一代实验分析引擎,该引擎对核心实验框架进行了标准化,并融合了众多先进解决方案,有效解决小样本挑战。同时,提供了多样化的溢出效应应对策略,并针对不同业务场景提供了精准的方差和P值计算方法,以规避统计误差。希望对大家有所帮助或启发。
by @技术头条 2024-11-02 16:18 查看详情
Semantic Kernel 视角下的 Text2SQL 实践与思考 (blog.yuanpei.me)
本文深入探讨了人工智能领域的最新进展,特别是大型语言模型(LLMs)的应用及其与检索增强生成(RAG)技术的结合。文章首先引用《诗经》中的名句,比喻技术的快速发展,随后讨论了 Agent 的概念,强调了其规划、记忆和工具使用的能力。作者分享了对市场上主流 Agent 产品的体验,并提出了对大模型动态规划任务的信念。文中还介绍了 Text2SQL 技术,展示了如何将自然语言转化为 SQL 语句,以及这一技术如何帮助大模型与关系型数据库连接。最后,作者反思了技术进步对人类社会的影响,特别是在效率提升与人类幸福感之间的关系。|
by @技术头条 2024-08-06 07:35 查看详情
防止数据泄露的高效策略-翻译整理 (ixyzero.com)
简单来说,就是数据安全左移,在每一个阶段都做卡点和检测,提高入侵/获取敏感数据的成本,减少后续阶段的日志告警量,提高告警检测准确率,利用自动化工具/平台提高响应的速度和效率。
未授权不可访问;有账号凭证要检测是否正常(常用设备、常用网络、常见时间、常见操作行为、……);有账号也仅知其所需最小权限;梳理出的高权限账号的敏感操作进行重点关注。
数据尽量不落地,大部分操作在线即可完成,系统埋点要全面和准确;对于数据下载和外发格外关注,下载设备的DLP的健康状态和策略的有效性需要及时检查。
by @技术头条 2024-03-12 22:56 查看详情
基于接口数据变异的App健壮性测试实践 (tech.meituan.com)
本文主要介绍了对网络返回数据进行变异的客户端健壮性测试实践经验。文章第一部分介绍客户端健壮性测试的基本概念;第二部分分享了基于接口返回数据变异的App健壮性测试方案设计的思路;第三部分主要解读了变异数据的构造和异常检测方案设计;第四部分介绍了精简变异数据的探索方案。
by @技术头条 2024-03-12 22:45 查看详情
个人数据安全不完全指南 (thiscute.world)
这里介绍的并不是什么能一蹴而就获得超高安全性的傻瓜式方案,它需要你需要你有一定的技术背景跟时间投入,是一个长期的学习、实践与方案迭代的过程。另外如果你错误地使用了本文中介绍的工具或方案,可能反而会降低你的数据安全性,由此产生的任何损失与风险皆由你自己承担。
by @技术头条 2024-03-12 22:32 查看详情
SQL优化(3)-索引与优化原理(上) (example.com)
这一篇我们回归现实中的MySQL数据库,初步学习具体的SQL优化原则,并尝试从索引底层原理出发,分析为什么会有那么多的“规则”。
by @技术头条 2024-01-13 23:28 查看详情
SQL优化(2)-索引与B+树 (example.com)
对于60%的程序员而言,Java的三层架构Controller、Service、Dao可以说是“越往后走天越黑”,特别是到了Dao层,提着灯笼也只能看到脚边一米开外的河边小石子,只闻对岸风啸马嘶却不知到底是人是鬼,只能借着MyBatis或JPA这些ORM框架隔着宽宽的河举行一场又一场的刺刀战,你砍我一刀,我刺你一剑。

诚然,很多人对MySQL数据库的印象就是一个模糊的大铁柜,闭上眼睛深吸一口气仿佛还能嗅到一股铁锈味。只知柜子里藏着很多张表,表里面存着很多行数据,再详细一点的呢?不知道。

MySQL有太多太多细节,根本无法用四、五篇文章说透,但我仍希望这个系列的文章能成为非常好的入门教程,让从来没接触过SQL优化的同学也能快速建立较为系统的知识框架,方便日后学习其他专栏时进一步拓展。
by @技术头条 2024-01-13 23:28 查看详情