在MaxCompute中利用bitmap进行数据处理 (yq.aliyun.com)

【简介】

很多数据开发者使用bitmap技术对用户数据进行编码和压缩,然后利用bitmap的与/或/非的极速处理速度,实现类似用户画像标签的人群筛选、运营分析的7日活跃等分析。本文给出了一个使用MaxCompute MapReduce开发一个对不同日期活跃用户ID进行bitmap编码和计算的样例。供感兴趣的用户进一步了解、分析,并应用在自己的场景下。

点击查看原文 >>

@可耐芊小仙女 2019-08-07 15:26 / 0个评论
赞过的人: @IT技术博客大学习
要不要再学学下面的文章?
通过漫游交换进行隐蔽访问的新型后门 GTPDOOR 分析 (paper.seebug.org)
GTPDOOR 是一种基于 Linux 的恶意软件,旨在部署在邻近 GRX(GPRS 交换网络)的电信网络系统中,具有通过GTP-C(GPRS 隧道协议- 控制平面)信令消息传递 C2 流量的功能。这使得 C2 流量能够与正常流量混合,并重新利用可能对 GRX 网络开放且暴露的已允许端口。
by @技术头条 2024-03-12 22:49 查看详情
利用gorm自身提供的方法实现存在更新不存在则创建的能力 (wiki.eryajf.net)
MySQL 有一个语句是 UPSERT 的操作,它结合了 update 和 insert 两种操作的功能。当执行 upsert 操作时,如果指定的记录已经存在,则执行更新操作;如果指定的记录不存在,则执行插入操作。这种操作可以用来确保数据的一致性,并且可以减少对数据库的访问次数。
by @技术头条 2024-01-13 23:49 查看详情
HTTP2 请求走私利用剖析 (paper.seebug.org)
文章将主要对HTTP/2协议的新特性以及HTTP/2中的请求走私进行详细介绍。
by @技术头条 2024-01-13 23:47 查看详情
如何利用「深度上下文兴趣网络」提升点击率? (tech.meituan.com)
美团到店广告平台在用户行为序列建模算法的迭代落地中,基于对业务实际场景中用户决策心智的观察,创新性地提出了深度上下文兴趣网络,精确建模了用户的兴趣,提升了CTR等线上业务指标。本文介绍了相应算法背后的动机、建模方法以及工程优化,希望能为从事相关工作的同学带来一些启发或帮助。
by @技术头条 2023-11-29 23:40 查看详情
利用HAR文件查看和诊断网络请求 (www.iszy.cc)
HAR(HTTP 归档)是多种 HTTP 会话工具用来导出所记录数据的 一种文件格式。这种格式基本上是 JSON 对象,并具有一组特定的字段。请注意,并非所有 HAR 格式的字段都是必填字段, 很多时候,部分信息不会保存到文件中。
by @技术头条 2023-11-29 23:36 查看详情
攻击者通过 Freeze.rs 和 SYK 密码器进行恶意软件分发 (paper.seebug.org)
在本文中,我们将深入研究用于交付Rust-lang注射器(SYK密码器)的初始攻击方法,并进一步探索攻击的后续阶段。
by @技术头条 2023-10-18 00:15 查看详情
使用 GPG 对 Git commit/tag 进行签名 (mingming.wang)
为什么要签名
GPG 可以对 Git commit 或 tag 进行签名,其它用户可以知道这个 commit 来源可信,也就是作者本人提交的代码。
by @幸运小懒人 2023-09-22 11:30 查看详情
如何利用链路追踪快速定位问题 (insights.thoughtworks.cn)
随着微服务应用数量的增加,服务与服务之间的调用关系变得复杂,导致系统问题定位困难。链路追踪可通过唯一ID标记请求的整个调用链路,记录每个节点,快速定位问题。
by @Thoughtworks 2023-08-25 11:32 查看详情
利用 MySQL 的 Binlog 实现数据同步与订阅(下):EventBus 篇 (blog.yuanpei.me)
终于到这个系列的最后一篇,在前两篇博客中,我们分别了介绍了Binlog的概念和事件总线(EventBus)的实现,在完成前面这将近好几千字的铺垫以后,我们终于可以进入正题,即通过 EventBus 发布 Binlog,再通过编写对应的 EventHandler 来订阅这些 Binlog,这样就实现了我们“最初的梦想”。坦白说,这个过程实在有一点漫长,庆幸的是,它终于还是来了。
by @技术头条 2023-07-02 23:34 查看详情
利用 MySQL 的 Binlog 实现数据同步与订阅(中):RabbitMQ 篇 (blog.yuanpei.me)
本文参考微软的 eShopOnContainers 项目,实现一个基于 RabbitMQ 的事件总线,事件总线是发布-订阅模式的一种延伸,可以在分布式的环境中令消息的发布者、订阅者完美地解耦,是领域驱动设计(DDD)中重要的基础设施之一,对于实现业务上的“事件驱动”非常有帮助。而实现 EventBus 最关键的三个方法,即 Publish()、Subscribe()和 Unsubscribe(),这其中需要了解一部分 RabbitMQ 的知识,所以,在这篇博客中,你可以了解到 RabbitMQ 的四种交换器、死信机制、重试超时机制等等。
by @技术头条 2023-07-02 23:33 查看详情