如何在MaxCompute上处理存储在OSS上的开源格式数据 (yq.aliyun.com)

【简介】

MaxCompute作为使用最广泛的大数据平台,内部存储的数据以EB量级计算。巨大的数据存储量以及大规模计算下高性能数据读写的需求,对于MaxCompute提出了各种高要求及挑战。处在大数据时代,数据的来源多种多样,开源社区经过十几年的发展,百花齐放,各种各样的数据格式不断的出现。 我们的用户也在各个场景上,通过各种计算框架,积累了各种不同格式的数据。怎样将MaxCompute强大的计算能力开放给这些使用开源格式存储沉淀下来的数据,在MaxCompute上挖掘这些数据中的信息,是MaxCompute团队希望解决的问题。

点击查看原文 >>

@幸运的猫耳 2018-05-31 16:31 / 0个评论
要不要再学学下面的文章?
学习了解数据仓库中的分层概念 (ixyzero.com)
本文详细介绍了数据仓库的分层概念,包括数据运营层(ODS)、数据仓库层(DW)和数据应用层(APP)。其中,DW层进一步细分为数据明细层(DWD)、数据中间层(DWM)和数据服务层(DWS)。文章阐述了各层的功能和作用,并通过实例说明如何在实际业务中应用这些分层概念。该内容适合数据工程师、数据分析师、数据架构师以及对数据仓库设计和实现感兴趣的技术人员阅读。
by @技术头条 2025-01-12 12:08 查看详情
Java|如何用一个统一结构接收成员名称不固定的数据 (mazhuang.org)
文章通过企业微信接口示例,介绍用 Jackson 的 @JsonAlias 注解处理 Java 中不固定字段名的 JSON 数据,提升解析通用性。适合需统一处理多样 JSON 数据的 Java 开发者。
by @技术头条 2025-01-12 12:05 查看详情
Ansible使用Bitwarden存储Vault密码 (www.iots.vip)
本文介绍了如何使用 Bitwarden 的命令行客户端(bitwarden-cli)与 Ansible 集成,将 Ansible Vault 的密码存储在 Bitwarden 中,实现集中化管理。通过配置 vault_password_file,Ansible 可以调用存储在 Bitwarden 中的密码,避免在命令行中手动输入,提高安全性和便利性。该方法适用于需要在自动化流程中安全管理敏感信息的开发者和运维工程师。
by @技术头条 2025-01-12 11:53 查看详情
数据的长期保存 (blog.delphij.net)
这篇文章探讨了长期数据保存的策略与实践,详细分析了存储介质的选择、数据完整性保障方法以及常见的管理问题和解决方案。作者结合实践经验,提出了一套适用于个人和企业的数据保存规划。内容适合关注数据存储、安全备份及长期保存技术的开发者、IT 管理人员,以及对数据安全感兴趣的读者,提供了具有实用价值的参考建议。
by @技术头条 2025-01-03 00:15 查看详情
ThinkPad + Redis:构建亿级数据毫秒级查询的平民方案 (soulteary.com)
如何用普通设备实现海量数据的毫秒级查询?文章分享了在 ThinkPad 上构建 Redis 系统的完整方案,详细解析了数据分片、查询优化和资源调配等关键技术,还提供了针对高效查询的实际案例。轻量化实现,高性能表现,为开发者提供了实用的参考思路,值得深入学习!
by @技术头条 2025-01-02 23:58 查看详情
Hive SQL如何找出连续日期数据之间的较大波动 (ixyzero.com)
本文介绍了在 Hive SQL 中如何识别连续日期数据的显著波动,适用于异常检测。使用窗口函数 `LAG` 和 `LEAD` 提取前后日期数据,通过对比当天与昨日、近几日的均值或分位数来判定异常。文中提供了查询示例,通过阈值设定(如倍数增加或p90分位数)识别异常值,帮助分析用户行为或数据波动,为风控和数据监控提供技术支持。
by @技术头条 2024-11-02 16:52 查看详情
新一代实验分析引擎:驱动履约平台的数据决策 (tech.meituan.com)
本文介绍了美团履约技术平台的新一代实验分析引擎,该引擎对核心实验框架进行了标准化,并融合了众多先进解决方案,有效解决小样本挑战。同时,提供了多样化的溢出效应应对策略,并针对不同业务场景提供了精准的方差和P值计算方法,以规避统计误差。希望对大家有所帮助或启发。
by @技术头条 2024-11-02 16:18 查看详情
OpenCV 模糊处理图片中包含的二维码 (blog.wangmao.me)
之前在某电商 App 上浏览商品评论区时,发现一些晒单照片中包含的二维码被马赛克处理了,从马赛克的处理痕迹来看不像是用户手动处理的,更像是机器识别+处理的,对此我更好奇其实现原理了。

借助 ChatGPT,了解到主流的处理方式是通过 OpenCV 识别二维码的位置,并创建一个模糊图层对其覆盖。
by @技术头条 2024-08-06 07:37 查看详情
从存储模型聊一聊时序数据库的应用场景 (www.codedump.info)
本文介绍时序数据库的存储模型,只有理解了时序数据的存储模型,才能更好的了解时序数据库的优缺点以及其适用场景。
by @技术头条 2024-03-21 23:25 查看详情
Memcached的存储原理解析 (www.codedump.info)
最近工作上的需要,需要做一个LRU形式管理内存的分配器,首先想到的就是Memcached这个项目。早些年粗略的看过一些,有个大体的了解,这一次看下来发现其LRU算法做了不少的改动。
by @技术头条 2024-03-21 23:21 查看详情