cs www.csdn.net / 2015-06-21 22:15 / by @技术头条

流式大数据处理的三种框架：Storm，Spark和Samza。许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对Storm、Spark和Samza等三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。

赞过的人

bl blog.delphij.net / 2026-05-10 17:49

git submodule 与 subtree 的异同

很多团队在拆分大型 Git 仓库时，都会遇到 submodule 和 subtree 的选择问题。本文围绕两种方案的实际维护体验展开分析，而不是只停留在命令层面对比。

作者认为，submodule 更符合“仓库独立治理”的设计目标，适合需要清晰边界、独立版本管理和长期维护的大型项目；而 subtree 虽然使用门槛更低、clone 更方便，但容易造成代码冗余和仓库持续膨胀。

文章比较有价值的地方在于，它没有单纯强调“哪种更简单”，而是从架构治理、团队协作和长期维护成本角度讨论问题，适合已经进入中大型工程阶段的团队参考。

如果你正在做 monorepo 拆分、多仓库治理，或者维护复杂依赖关系，这篇文章值得一读。

查看详情

无图

pa paper.seebug.org / 2025-01-03 00:07

探索 AI 驱动的网络安全框架：深度学习技术、GPU 支持和未来增强

这篇文章详细分析了现代网络攻击中的 DGA（域名生成算法）技术，涵盖了其工作原理、分类及在恶意软件中的应用实例。通过技术解析和实际案例，展示了如何检测和防御 DGA 带来的安全威胁。内容适合网络安全研究人员、安全工程师以及对恶意软件分析感兴趣的技术爱好者，提供了系统化的学习参考。

查看详情

无图

bl blog.devtang.com / 2024-11-02 16:25

第一性原理思考：解决问题的通用框架(续)

本文深入探讨了几种思维框架，包括28原理、谬误推导和终局思维等，帮助在决策中聚焦关键因素，判断信息真伪。文章还列举了常见误区，如误把相关性当因果、从众心理和情绪化决策等，提醒在信息泛滥中保持清晰的逻辑思维。通过案例分析，这些思维模式能有效提升问题解决和决策的效率。

查看详情

无图

bl blog.devtang.com / 2024-11-02 16:20

第一性原理思考：解决问题的通用框架

本文介绍了解决问题的通用框架，基于“第一性原理”思考，分为信息收集、建模、判断和策略迭代四步。通过广泛收集经验与原始数据，建立问题模型，量化核心指标并不断优化策略，可以逐步解决复杂问题。框架虽无法保证执行到位，但帮助接近真实问题，为复杂决策提供可靠支持。

查看详情

无图

te tech.meituan.com / 2024-09-09 23:41

Spark向量化计算在美团生产环境的实践

美团在 Spark 生产环境中引入了向量化计算，使用 Gluten 和 Velox 框架，实现了大数据任务的加速和资源优化。本文详细讲解了 Spark 向量化的原理、性能提升以及美团的实施过程和遇到的挑战，适合关注大数据优化的技术人员。

查看详情

无图

bl blog.wangmao.me / 2024-08-06 07:37

OpenCV 模糊处理图片中包含的二维码

之前在某电商 App 上浏览商品评论区时，发现一些晒单照片中包含的二维码被马赛克处理了，从马赛克的处理痕迹来看不像是用户手动处理的，更像是机器识别+处理的，对此我更好奇其实现原理了。

借助 ChatGPT，了解到主流的处理方式是通过 OpenCV 识别二维码的位置，并创建一个模糊图层对其覆盖。

查看详情

无图

co www.codedump.info / 2024-03-21 23:24

Lamport时钟介绍

在分布式系统中，由于有多个机器（进程）在一起协调工作，于是如何定义分布式系统中事件的先后顺序就成了难题，本文介绍论文《Time, Clocks, and the Ordering of Events in a Distributed System》中提到的Lamport时钟。

查看详情

无图

co colobu.com / 2024-03-21 22:55

Go 中的高速数据包处理:从 net.Dial 到 AF_XDP

最近编写了一个Go程序，向数百万个IP地址发送ICMP ping消息。显然，希望这个过程能尽可能快速高效地完成。因此,这促使我研究各种与网络栈交互和快速发送数据包的各种方法。这是一个有趣的旅程,所以在本文中,我将分享一些学习成果,并记录下来供将来参考:)你将看到，仅使用8个内核就可以达到1880万数据包/秒。这里还有一个GitHub仓库,其中包含了示例代码,可以方便地跟随学习。

查看详情

无图

wi wiki.eryajf.net / 2024-03-12 22:53

带你认识本地大模型框架Ollama(可直接上手)

自 OpenAI 公司于2022 年 11 月 30 日发布 ChatGPT 以来，经过 23 年一整年的发展之后，大模型的概念已逐渐普及，各种基于大模型的周边产品，以及集成层出不穷，可以说已经玩出花来了。在这个过程中，也有不少本地化的模型应用方案冒了出来，针对一些企业知识库问答的场景中，模型本地化是第一优先考虑的问题，因此如何在本地把模型调教的更加智能，就是一个非常重要的技能了。在 23 年的时候，我也接触过一些本地模型的开源项目(比如 LocalAI)，当时在本地部署跑起来之后，发现交互的体验，回答的速度，以及智能程度，都远低于预期。最近又一次了解本地模型的玩法，从微信群里了解到了 ollama，经过几天业余时间的研究及了解，发现现在模型本地化的玩法，以及能力都早已不可同日而语，本文，将记录我这几天来对于 ollama 的粗浅认识以及快速入门玩起来。

查看详情

无图

pa paper.seebug.org / 2024-03-12 22:49

通过漫游交换进行隐蔽访问的新型后门 GTPDOOR 分析

GTPDOOR 是一种基于 Linux 的恶意软件，旨在部署在邻近 GRX（GPRS 交换网络）的电信网络系统中，具有通过GTP-C（GPRS 隧道协议- 控制平面）信令消息传递 C2 流量的功能。这使得 C2 流量能够与正常流量混合，并重新利用可能对 GRX 网络开放且暴露的已允许端口。

查看详情

无图

流式大数据处理的三种框架：Storm，Spark和Samza。许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对Storm、Spark和Samza等三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。

赞过的人

发表评论

相关分享