相关分享
学习了解数据仓库中的分层概念
本文详细介绍了数据仓库的分层概念,包括数据运营层(ODS)、数据仓库层(DW)和数据应用层(APP)。其中,DW层进一步细分为数据明细层(DWD)、数据中间层(DWM)和数据服务层(DWS)。文章阐述了各层的功能和作用,并通过实例说明如何在实际业务中应用这些分层概念。该内容适合数据工程师、数据分析师、数据架构师以及对数据仓库设计和实现感兴趣的技术人员阅读。
Java|如何用一个统一结构接收成员名称不固定的数据
文章通过企业微信接口示例,介绍用 Jackson 的 @JsonAlias 注解处理 Java 中不固定字段名的 JSON 数据,提升解析通用性。适合需统一处理多样 JSON 数据的 Java 开发者。
数据的长期保存
这篇文章探讨了长期数据保存的策略与实践,详细分析了存储介质的选择、数据完整性保障方法以及常见的管理问题和解决方案。作者结合实践经验,提出了一套适用于个人和企业的数据保存规划。内容适合关注数据存储、安全备份及长期保存技术的开发者、IT 管理人员,以及对数据安全感兴趣的读者,提供了具有实用价值的参考建议。
ThinkPad + Redis:构建亿级数据毫秒级查询的平民方案
如何用普通设备实现海量数据的毫秒级查询?文章分享了在 ThinkPad 上构建 Redis 系统的完整方案,详细解析了数据分片、查询优化和资源调配等关键技术,还提供了针对高效查询的实际案例。轻量化实现,高性能表现,为开发者提供了实用的参考思路,值得深入学习!
Hive SQL如何找出连续日期数据之间的较大波动
本文介绍了在 Hive SQL 中如何识别连续日期数据的显著波动,适用于异常检测。使用窗口函数 `LAG` 和 `LEAD` 提取前后日期数据,通过对比当天与昨日、近几日的均值或分位数来判定异常。文中提供了查询示例,通过阈值设定(如倍数增加或p90分位数)识别异常值,帮助分析用户行为或数据波动,为风控和数据监控提供技术支持。
AWS运维部署实践--route53私有域跨账号共享
如果你的业务场景有多个 AWS 账号,那么私有域共享就是一个绕不开的话题。aws 中的 route53 私有域配置跨账号共享有两种方案,一种是直接跨账号关联 VPC,一种是通过配置文件共享的形式实现。本文采用第一种方案,只需要两条命令即可完成此需求。
全域用户建模在美团首页推荐的探索与实践
本文详述了全域建模技术在美团首页推荐系统的发展和演进。美团首页推荐算法团队通过多阶段递进式探索验证,在召回与排序模块引入多展位、多应用渠道的多源用户交互数据,并在落地过程中解决了美团多展位、多业务、时空场景强相关性的特点导致的严重跨域信号负迁移挑战。
新一代实验分析引擎:驱动履约平台的数据决策
本文介绍了美团履约技术平台的新一代实验分析引擎,该引擎对核心实验框架进行了标准化,并融合了众多先进解决方案,有效解决小样本挑战。同时,提供了多样化的溢出效应应对策略,并针对不同业务场景提供了精准的方差和P值计算方法,以规避统计误差。希望对大家有所帮助或启发。
重复视频检测的价值和常见方法
全网范围内的主要精品视频主要来自MCN机构,一些公司为了更快更好地去覆盖全网内容,会选择和内容代理合作,而代理手上会有很多重复版权的内容,导致重复内容出现。另外,搬运视频也会导致重复内容出现,这些重复内容会造成极差的用户体验。
再者,大量内容相似的视频对于短视频平台存储、网络带宽等资源也是一个极大的挑战,为了不必要的资源浪费,对视频内容进行去重是非常有必要的。
防止数据泄露的高效策略-翻译整理
简单来说,就是数据安全左移,在每一个阶段都做卡点和检测,提高入侵/获取敏感数据的成本,减少后续阶段的日志告警量,提高告警检测准确率,利用自动化工具/平台提高响应的速度和效率。
未授权不可访问;有账号凭证要检测是否正常(常用设备、常用网络、常见时间、常见操作行为、……);有账号也仅知其所需最小权限;梳理出的高权限账号的敏感操作进行重点关注。
数据尽量不落地,大部分操作在线即可完成,系统埋点要全面和准确;对于数据下载和外发格外关注,下载设备的DLP的健康状态和策略的有效性需要及时检查。
