基于Hadoop生态SparkStreaming的大数据实时流处理平台的搭建 (mp.weixin.qq.com)

【简介】

随着公司业务发展,对大数据的获取和实时处理的要求就会越来越高,日志处理、用户行为分析、场景业务分析等等,传统的写日志方式根本满足不了业务的实时处理需求,所以本人准备开始着手改造原系统中的数据处理方式,重新搭建一个实时流处理平台,主要是基于Hadoop生态,利用Kafka作为中转,SparkStreaming框架实时获取数据并清洗,将结果多维度的存储进HBase数据库。

点击查看原文 >>

@帘卷一庭秋 2018-06-04 18:53 / 0个评论
赞过的人: @技术头条
要不要再学学下面的文章?
使用零一万物 200K 模型和 Dify 快速搭建模型应用 (soulteary.com)
本篇文章,我们聊聊如何使用 LLM IDE (Dify) 快速搭建一个模型应用,以及使用超长上下文的 200K 模型,完成懒人式的电子书翻译。
by @技术头条 2024-03-21 22:55 查看详情
Go 中的高速数据包处理:从 net.Dial 到 AF_XDP (colobu.com)
最近编写了一个Go程序,向数百万个IP地址发送ICMP ping消息。显然,希望这个过程能尽可能快速高效地完成。因此,这促使我研究各种与网络栈交互和快速发送数据包的各种方法。这是一个有趣的旅程,所以在本文中,我将分享一些学习成果,并记录下来供将来参考:)你将看到,仅使用8个内核就可以达到1880万数据包/秒。这里还有一个GitHub仓库,其中包含了示例代码,可以方便地跟随学习。
by @技术头条 2024-03-21 22:55 查看详情
防止数据泄露的高效策略-翻译整理 (ixyzero.com)
简单来说,就是数据安全左移,在每一个阶段都做卡点和检测,提高入侵/获取敏感数据的成本,减少后续阶段的日志告警量,提高告警检测准确率,利用自动化工具/平台提高响应的速度和效率。
未授权不可访问;有账号凭证要检测是否正常(常用设备、常用网络、常见时间、常见操作行为、……);有账号也仅知其所需最小权限;梳理出的高权限账号的敏感操作进行重点关注。
数据尽量不落地,大部分操作在线即可完成,系统埋点要全面和准确;对于数据下载和外发格外关注,下载设备的DLP的健康状态和策略的有效性需要及时检查。
by @技术头条 2024-03-12 22:56 查看详情
基于接口数据变异的App健壮性测试实践 (tech.meituan.com)
本文主要介绍了对网络返回数据进行变异的客户端健壮性测试实践经验。文章第一部分介绍客户端健壮性测试的基本概念;第二部分分享了基于接口返回数据变异的App健壮性测试方案设计的思路;第三部分主要解读了变异数据的构造和异常检测方案设计;第四部分介绍了精简变异数据的探索方案。
by @技术头条 2024-03-12 22:45 查看详情
分布式因果推断在美团履约平台的探索与实践 (tech.meituan.com)
美团履约平台技术部在因果推断领域持续的探索和实践中,自研了一系列分布式的工具。本文重点介绍了分布式因果树算法的实现,并系统地阐述如何设计实现一种分布式因果树算法,以及因果效应评估方面qini_curve/qini_score的不足与应对技巧。希望能为从事因果推断相关工作的同学们提供一些启发或帮助。
by @技术头条 2024-03-12 22:39 查看详情
个人数据安全不完全指南 (thiscute.world)
这里介绍的并不是什么能一蹴而就获得超高安全性的傻瓜式方案,它需要你需要你有一定的技术背景跟时间投入,是一个长期的学习、实践与方案迭代的过程。另外如果你错误地使用了本文中介绍的工具或方案,可能反而会降低你的数据安全性,由此产生的任何损失与风险皆由你自己承担。
by @技术头条 2024-03-12 22:32 查看详情
高效I/O并发处理:双缓冲和Exchanger (colobu.com)
双缓冲(double buffering)是高效处理I/O操作的一种并发技术,它使用两个buffer,一个goroutine使用其中一个buffer进行写,而另一个goroutine使用另一个buffer进行读,然后进行交换。这样两个goroutine可能并发的执行,减少它们之间的等待和阻塞。

本文还提供了一个类似Java的java.util.concurrent.Exchanger的Go并发原语,它可以用来在两个goroutine之间交换数据,快速实现双缓冲的模式。 这个并发原语可以在github.com/smallnest/exp/sync/Exchanger找到。
by @技术头条 2024-01-17 23:05 查看详情
使用SigNoz搭建可观测系统 (jokerbai.com)
前言SigNoz是一个开源的应用程序性能监控工具,可以帮助你监控你的应用程序并排除故障,它可以进行链路追踪、基础设施监控以及日志管理,可以说是Datalog的开源版本。
by @技术头条 2023-11-30 23:19 查看详情
简要说明 HTTPS 是如何保证数据安全 (www.addesp.com)
本文简要介绍HTTPS协议是如何保证数据在传输过程中的安全的。
由于是以介绍为主,所以不会涉及细节,而且肯定会有一些错误。如果想要详细了解可自行查阅资料。
by @技术头条 2023-11-06 23:31 查看详情
Hadoop安全学习 (ixyzero.com)
Hadoop集群基本都放在内网,有一层网络隔离做保护,懂这个且想利用和能利用这个做坏事的人比较少,一般不容易出问题;对于没放在内网或者没有做隔离的那些公司或团队,安全意识和能力肯定是有较大欠缺,数据泄露的渠道和方式很多,不缺这一个,都不需要用这种方式来搞数据;使用第三方云服务的公司或团队一般不需要操心底层服务的安全问题,只需要关注上层应用的账号安全和使用安全等问题就行。
by @技术头条 2023-10-30 23:38 查看详情