系统架构

共 731 篇文章

IT 2018-07-05 13:23:13 / 累计浏览 2,571

UMStor Hadapter：大数据与对象存储的柳暗花明

这篇讲的是大数据存储里一个经典矛盾的解决方案。作者从武侠江湖的比喻切入，指出数据湖架构也分“计算存储融合”（以HDFS为代表）与“计算存储分离”（以S3A+Ceph对象存储为代表）两大派系。前者有数据本地性优势，但NameNode易成瓶颈且弹性差；后者扩展灵活，但所有请求必须经过RGW网关，多了一跳，影响性能且不支持追加上传。文章的核心亮点在于提出了一条“柳暗花明”的路径。作者团队受NFS-Ganesha启发，利用Ceph提供的librgw函数库，绕过了RGW网关这一中间环节。据此开发的Hadapter插件，能让Hadoop客户端直接通过librados与OSD通信。这相当于在保留对象存储管理优势的同时，借鉴了HDFS直接交互的思路，在IO路径上少了一跳，理论上能获得更好的读写性能，并补齐了社区版S3A在追加上传上的短板。摘要最后可以简要提及Hadapter的部署便利性（一个jar包）和其作为Hadoop存储插件的定位，让读者对这个方案的具体形态有个直观了解。整篇文章的脉络是从问题拆解到方案融合，对架构选型有切实参考价值。

IT 2018-07-04 23:50:30 / 累计浏览 2,173

初探Kafka Streams

这篇文章从流式计算讲起，清晰地区分了它与批量计算及实时计算的核心差异。流式处理的是“无界”数据流，追求增量式计算与实时性，而非等待全量数据。在此基础上，文章引出了Kafka Streams——一个轻量级的客户端类库，它让Java应用能轻松处理Kafka中的流数据。它的设计亮点非常突出：除了Kafka本身几乎没有外部依赖，却能利用Kafka的分区模型实现水平扩展和顺序保证；它通过可容错的状态存储支持复杂窗口操作，并提供从高层流式DSL到底层Processor API的完整工具链。文章进一步深入到Kafka Streams的架构内核。它解释了以Stream（无界数据集）为核心抽象，如何通过Source、Sink等Processor节点构建出处理拓扑（Topology）。同时，也剖析了流处理中至关重要的时间模型，如事件时间与处理时间的区别。最终，文章展示了Kafka Streams如何将简洁的客户端编程与强大的服务器端集群能力结合，为构建微服务提供了一条清晰的路径。

IT 2017-12-24 20:00:05 / 累计浏览 2,072

60 TB 数据：Facebook 是如何大规模使用 Apache Spark 的

这篇讲的是Facebook如何将一个关键的大数据流水线，从古老的Hive迁移到现代的Apache Spark上。背景是，他们用于实时实体排名的特征准备流程，原本基于Hive，由数百个小作业组成，耗时长达三天，且极其难以监控和维护。为了追求更快的速度和更好的可管理性，他们选择将整个流水线整合成一个单独的Spark作业，直接处理高达60TB的压缩数据。迁移过程并非一帆风顺。作者坦言，第一次甚至第十次尝试都未成功，因为要可靠地运行一个处理如此大规模shuffle数据的作业，挑战巨大。团队对Spark的可靠性进行了大量修补，例如提升节点频繁重启时的容错能力，修复了从PipedRDD获取失败到执行器内存溢出等一系列问题。这使得作业得以稳定运行。在性能优化上，他们的努力同样深入。通过自定义的火焰图等分析工具定位瓶颈后，他们对Spark底层进行了关键修改：修复排序器的内存泄漏带来了30%的速度提升；优化Snappy压缩调用节省了10% CPU；减少不必要的重排文件打开操作最高提升了50%的性能。最终，这个迁移项目不仅让Facebook自身受益，所有改进也被回馈给了开源Apache Spark社区。

IT 2017-12-24 19:54:15 / 累计浏览 2,635

浅谈《守望先锋》中的 ECS 构架

这篇技术博客的作者从《守望先锋》GDC演讲出发，深入浅出地解析了游戏开发中的ECS架构。文章直面传统面向对象游戏引擎的痛点——每个游戏对象都捆绑了所有功能模块的Update方法，导致模块间耦合严重、内聚性差。对于像《守望先锋》这类需要复杂网络预测与同步的游戏，传统架构显得力不从心。作者详细拆解了ECS（Entity-Component-System）的核心设计：Entity仅作为带ID的生命体容器；Component是纯数据（如位置、输入状态）；System则是纯逻辑处理单元。框架负责根据System声明的Component组合，自动筛选出它关心的Entity子集进行遍历。这使得每个System能高度专注且松耦合。文章还提到了Singleton Component的演进、Utility函数的使用以及如何集中处理有副作用的行为。最终，作者指出ECS最大的优势在于清晰分离状态与逻辑，这极大简化了网络同步中的状态快照与回滚操作。《守望先锋》利用这套架构，在60fps的固定更新频率下，优雅地处理了客户端预测、服务器仲裁及网络波动时的“时间压缩”同步难题，展现了架构在管理复杂度上的强大能力。

IT 2017-10-15 10:01:28 / 累计浏览 1,428

个人博客技术演进的流水账

这篇文章从个人博客的“搬家史”出发，串起了一个Web前端技术演进的缩影。作者最初受困于商业博客平台的种种限制——域名不可控、内容易丢失、样式不自由，为了“把数据和控制权握在自己手里”，走上了自建博客之路。文章以这个起点展开，以博客系统的技术栈变迁为线索，梳理了Web开发的几个关键时期：从前后端不分的“SHTML+SSI”时代，到ASP/PHP动态脚本主导、MySQL普及的“前后端初分”时期；再到jQuery大行其道、前端资源开始分离，以及MV*框架、模块化构建工具与Node.js全栈模式兴起的高速迭代时代。文中提及了SaBlog、WordPress、Ghost等具有代表性的博客系统，并剖析了它们在各自阶段如何体现当时的主流技术架构与痛点。作者的流水账，实际上记录了前端如何从一个“后台附属”逐渐走向工程化、复杂化并分担更多职责的过程。文章结尾留下的疑问，也为思考当下技术选型提供了一个历史参照。

IT 2017-03-11 23:48:21 / 累计浏览 1,808

缓存那些事

这篇讲的是缓存体系中的“十八般武艺”。作者从最前端的浏览器缓存头（If-Modified-Since）谈起，带我们看到了CDN层面的不同玩法：CSI、SSI和ESI。文章特别指出了ESI在App接口场景下的适用性，以及在高并发要求下，直接生成静态文件上传CDN的硬核方案。视线转向应用层，文章拆解了local cache、Redis、Tair构成的多级缓存策略。以当当网交易链路为例，设置了1分钟的本地缓存过期时间，在一致性与性能间取得了平衡。对于开发者常头疼的缓存击穿问题，文章清晰地列举了三种场景：缓存过期、数据不存在和缓存宕机，并分别给出了“加锁防雪崩”、“空对象防穿透”和“DB裸压保底”的实战心法。此外，文章还延伸到了提升用户体验的pjax局部更新与bigpipe分段输出技术。最后，作者将笔触落到缓存优化的细微处——通过精简Key、使用slim object序列化以及Gzip/Brotli压缩，从一点点缩减对象大小入手，来节省整个缓存池子的资源。这是一份从浏览器到服务器、从架构到细节的缓存实践地图。

IT 2017-03-11 23:37:46 / 累计浏览 2,431

分布式程序设计早知道-关于分布式程序设计常见问题分析

这篇讲的是分布式系统设计里那些“小”但影响深远的共性问题。作者从日常开发经验出发，梳理了六个关键点：接口日期该用可读格式还是long型，浮点数传输为何必须转成字符串以避免精度丢失，以及如何设计一个统一的返回值结构（包含status、errorCode、message和data）。文章着重探讨了幂等性的实现——如何让重复的网络请求不产生副作用，建议为所有接口增加全局唯一的requestId。在接口安全方面，对比了appCode、对称加密和非对称加密三种鉴权方式，分析了它们在多对多场景下的安全性与效率权衡。最后，作者点明了维护数据字典对于解决多团队协作中属性命名混乱的重要性。这些问题虽不新奇，但一旦忽视，会在系统复杂化后引发大量冗余代码和错误。文章提供了一套实用的设计检查清单。

IT 2017-02-20 00:07:01 / 累计浏览 1,876

软件工程在Google

这篇文章揭秘了Google的软件工程实践体系。作者Fergus Henderson是Google资深工程师，曾是构建工具Blaze的核心开发者，他系统梳理了Google内部支撑其庞大业务运转的工程方法论。内容从微观的代码级实践切入，详细介绍了Google如何管理其统一的源码仓库、构建系统，以及强制推行的代码审查与测试流程。文章也深入到宏观层面，剖析了发布工程、线上故障复盘，甚至是“频繁重写代码”这一颇具Google特色的文化。这些实践共同构成了一套确保大规模软件交付质量与效率的完整系统。不同于一般的方法论文章，本文的实践细节非常扎实，涵盖了从日常开发、调试分析到项目管理的全流程，为读者提供了一个观察顶级科技公司如何“做软件”的珍贵窗口。对于希望提升工程化能力的技术团队，这些源自实战的经验与教训，具有很强的参考意义。

IT 2017-02-19 23:54:58 / 累计浏览 1,853

Springboot 实现 Restful 服务，基于 HTTP / JSON 传输

这篇讲的是如何用Springboot快速搭建一个标准的Restful API服务。作者从一个完整的Web案例切入，演示了从数据库准备、项目结构解析到运行测试的全过程。核心聚焦在控制层的实现上，作者通过一个城市的增删改查Demo，清晰展示了如何使用`@RequestMapping`来映射不同的HTTP动词（GET/POST/PUT/DELETE），并配合`@PathVariable`和`@RequestBody`注解优雅地处理URL参数和请求体。文章还对REST风格的五大要素和HTTP方法做了简要知识梳理，帮助读者理解背后的设计理念。这是一个很典型的、即开即用的Springboot RESTful入门示例，体现了框架在简化Web服务开发上的便捷性。

IT 2017-02-06 23:12:26 / 累计浏览 2,169

在 Unity3D 的 Mono 虚拟机中嵌入 Lua 的一个方案

这篇文章探讨了在 Unity3D 中嵌入 Lua 时，如何设计一个既简洁又完备的跨虚拟机交互方案。作者指出，市面上已有的许多方案存在过度繁琐或细节不完备的问题，他从 C/S 架构的通讯模型出发，提出了核心思路：将 Mono 与 Lua 间的交互抽象为一次“异地函数调用”。这个方案的核心精巧之处在于，它不直接暴露 Lua 的 C API，而是通过一个中间层的 struct 来传递所有数据。调用函数和参数被编码进这个 struct，统一由一个 C 函数传递给 Lua 虚拟机。这种设计极大地提高了模块的内聚性，并严格控制了 Mono 和 Lua 两套异常机制的边界，防止异常泄漏。文章还深入剖析了方案中最具挑战性的部分：两个虚拟机间的对象循环引用管理。作者详细讨论了如何利用 Lua 的弱表（weak table）和 ephemeron table 来检测仅被外部虚拟机引用的对象，并最终解除循环引用。同时，他也务实地建议，在多数项目中，保持清晰的单边引用关系（Lua 长期持有 C# 对象，C# 短期持有 Lua 对象）是更简单有效的做法。基于这套理念，作者在周末实现了一个名为 sharplua 的轻量级方案。它提供了极简的 API：一个创建 Lua 虚拟机，两个核心的 CallFunction 和 GetFunction 用于双向调用，以及一个 CollectGarbage 用于管理跨语言对象的内存。整个实现代码开源，结构清晰，为希望自定义嵌入方案的开发者提供了一个干净的基础模板。

IT 2016-05-15 23:55:49 / 累计浏览 4,449

缓存穿透、缓存并发、缓存失效之思路变迁

作者从缓存实战中最常遇到的三类“坑”出发，分别剖析了问题的成因与演进式的解决思路。缓存穿透源于无效请求击穿缓存层直击数据库，作者提出了用特殊值预占位的拦截技巧。缓存并发则针对高并发下缓存瞬间失效带来的数据库压力，给出了加锁串行化的方案。缓存失效问题本质是缓存集体过期导致的雪崩，通过引入随机因子分散过期时间是关键。文章后半部分通过问答，进一步探讨了缓存与数据库的一致性等更深层的实践困惑，整体展现了从发现问题、分析根因到提出并优化方案的完整思考过程。

IT 2016-05-15 23:49:38 / 累计浏览 1,530

代理服务和过载保护

这篇讲的是如何在skynet框架中，通过前置代理服务来解决热点服务的过载问题。作者指出，服务过载是并发环境下最常见也最棘手的问题之一，而代理服务能在不增加功能服务复杂度的前提下，提供有效的保护。核心方案是为热点服务增加一个代理层。这个代理可以智能地调度请求：当检测到某服务请求过于频繁时，会优先处理其他请求以保证公平；同时能自动丢弃那些来自已退出服务的无效请求。更重要的是，它能感知后端功能服务的负载情况，当服务过忙时缓存新请求。这带来一个实际好处：线上排障时，通过调试控制台直接发送的控制指令能绕过拥堵的请求队列，得到更快的响应。文章不仅给出了概念，还深入了实现细节。作者展示了如何利用 `skynet.forward_type` 编写高效的代理服务，通过直接传递消息指针来避免不必要的内存拷贝。此外，还介绍了两种关键的运维能力：如何通过 `debug ping` 协议快速检测目标服务的响应延迟以判断是否过载，以及如何利用 `debug link` 指令来感知服务退出，从而清理无效请求。整套方案从架构设计到代码实现，为处理并发环境下的服务保护问题提供了清晰的思路。

IT 2016-05-05 22:55:23 / 累计浏览 1,585

过去六年在小米搞(wa)错(keng)的几个技术细节

这篇来自小米早期技术团队的复盘文章，诚实地回顾了在搭建米聊及后续服务时，因经验不足和快速迭代而埋下的六个关键技术“坑”。它并非聚焦单一故障，而是从架构选型和工程实践的层面，剖析了那些当时看似合理、事后却带来长期困扰的决策。文章逐一拆解了具体问题：比如早期使用 Nginx 代理 Java 服务时缺乏平滑发布机制，导致上线必然有损；监控体系只关注单个模块指标，无法有效定位跨模块交互的问题；以及在移动端网络环境下，选择 HTTP 协议框架在当时可能存在更优的 TCP 方案。在语言与存储选型上，作者反思了在缺乏深度专家的情况下选择 Java 带来的稳定性挑战，以及过度依赖 MySQL 为后期多机房容灾设下了障碍。最后，对 RabbitMQ 的泛滥使用提出了警示，指出了服务间调用关系不透明带来的运维灾难。作者的核心观点在于：一些技术细节上的“将就”，会在业务规模增长后演变为系统性的瓶颈。这些来自实战的教训——无论是关于发布流程、监控哲学、通信协议还是存储设计——都揭示了前瞻性架构思考与技术深度对于构建大规模、可持续系统的重要性。

IT 2016-05-05 22:43:15 / 累计浏览 1,651

记录一种工作流心跳机制的设计

这篇讲的是在基于Amazon SWF的工作流中，如何设计一个可靠的心跳机制来维持长时间任务的存活。作者从实际开发踩坑出发，分享了应对SWF 5分钟超时限制的解决方案。核心方案是采用两个双端队列（main queue和backup queue）来统一管理所有需要心跳的任务。每秒从主队列取出一个任务发送心跳，完成后放入备份队列；每两分钟（一个周期）再将备份队列的任务批量移回主队列，开始新一轮循环。这个设计巧妙地解决了并发下的任务状态跟踪问题，比单队列加计数器的方案更简单高效。文章深入探讨了几个关键设计考量：心跳频率并非越快越好，需要在及时性和避免服务端限流之间做权衡；周期长度（如120秒）的设置要能覆盖超时时间并提供重试余地。更重要的是，作者详细剖析了心跳失败时的分级处理策略：对于资源已取消等常规异常直接移除任务；对于限流错误立即重试；对于其他未知异常则放入当前周期队尾重试并计数，避免影响其他任务。最后，通过一个EMR集群因心跳超时和检查逻辑缺陷被误回收的实例，说明了在真实分布式环境中，看似简单的心跳机制与任务超时、资源监控等环节环环相扣，设计时需要全局考量，用绝对时间而非操作次数来判断状态才更可靠。

IT 2016-04-21 13:34:05 / 累计浏览 1,327

APP创业项目后端语言选择

这篇讲的是初创团队在后端语言选择上的务实考量。作者跳出了语言优劣的争论，专注于如何为资源有限的创业项目匹配合适的技术栈。文章从JAVA、PHP、Python三种主流选择切入，细致分析了它们的实战特点。JAVA生态完善、适合复杂项目，但编译调试流程对小团队可能偏重；PHP作为老牌选择，框架成熟且开发效率高，特别是Phalcon框架在保护源码和提升性能上给出了新思路；Python则凭借其灵活性和在全栈开发上的潜力，通过Django等框架也能胜任后端工作，并且对小型项目尤为友好。最终，作者给出了清晰的选型建议：如果项目规模较大、需要稳定扩展，PHP（推荐Laravel或Phalcon）是更稳妥的选择；若项目较小、追求快速迭代，Python（配合Django框架）则显得更为轻便灵活。整篇文章没有鼓吹任何一种语言，而是帮助团队根据自身业务规模与团队现状，做出最贴合实际的技术决策。

IT 2016-04-20 13:13:14 / 累计浏览 1,389

Facebook App 优化工具 ReDex 优化的 6 点及未优化的一大方面

这篇讲的是Facebook开源的Android优化工具ReDex。它直接作用于编译后的Dex字节码，目标明确：减小APK体积并提升启动速度。经过Facebook的实测，它能使启动速度提升超过20%，Dex大小减小25%，对内存紧张的设备效果尤为显著。文章详细拆解了ReDex的6项核心优化。其中最具特色的一项是“基于启动反馈的类布局优化”：工具会先在测试环境中运行APK，追踪启动时实际加载的类，然后将这些类的字节码“前置”到Dex文件头部，从而大幅减少应用启动时在闪存中查找类文件的时间。除此之外，还包括混淆压缩、函数内联、删除无用接口与代码、清理元数据等常规但高效的手段。作者还点明了ReDex“管道式”的架构设计，每个优化阶段都可像插件一样灵活组合或关闭。同时，文章也提醒了使用中的注意事项，例如需为JNI调用和反射保留特殊配置、处理后的APK必须重新签名，以及混淆优化可能影响崩溃堆栈收集等实际问题。如果正在寻找一种能与现有编译流程集成、并对APK体积和冷启动有硬性优化需求的方法，那么深入理解ReDex的这些具体优化点和配置逻辑，会带来直接的启发。

IT 2016-03-24 17:20:56 / 累计浏览 2,192

浅谈Web缓存

作者从Web性能优化的实践角度出发，深入探讨了缓存机制在提升网页加载速度中的关键作用。文章首先区分了数据库缓存、代理服务器缓存、CDN缓存和浏览器缓存等类型，并聚焦于浏览器缓存如何通过将资源保存在客户端来减少服务器请求、降低网络负荷。核心内容详细解析了浏览器缓存的控制原理，重点对比了Cache-Control头部的多个指令：max-age（例如设置30天有效期）直接控制缓存时长，s-maxage则专用于CDN等共享缓存；public和private指令分别决定资源是否在多用户间共享或仅限私有使用；no-cache和no-store则涉及缓存验证和禁止策略。此外，文章对比了Expires、Last-modified和ETag的差异：Expires指定服务器端的具体过期时间点，但优先级低于Cache-Control；Last-modified基于文件最后修改时间进行验证，而ETag通过内容生成哈希字符串，更精确地检测资源变化，解决了Last-mod

IT 2016-03-23 15:30:23 / 累计浏览 2,232

学习设计API

这篇文章讲的是如何为前后端交互设计出清晰、可协作的API。它从API的基本定义出发，聚焦于一个实际问题：当团队协作时，混乱的接口定义会导致沟通成本激增。作者给出的核心方案是，团队必须先就返回值格式达成明确约定。文章重点对比了两种主流的JSON返回值结构。第一种方式中，`errcode`字段可选，它的出现即意味着错误，并伴有可选的`msg`描述。成功则通常返回`items`数据或特定字段。第二种方式则要求`errcode`必须存在，并约定以`0`表示成功，其他值则为错误码。文章指出，这些错误码可以建立为公共码（如1001代表未登录），便于前端统一处理。作者强调，JSON因其轻量和可扩展性已成为首选。通过建立这样的强约定，前端可以依据`errcode`进行明确的逻辑判断，而后端也能遵循规范返回数据。这种前置的、统一的接口设计，能够显著减少联调时的误解，让前后端协作更加顺畅，也使得接口本身更为健壮和可维护。

IT 2016-03-22 22:46:00 / 累计浏览 1,266

快速决策方案 —— Airtrack

这篇讲的是原生应用如何找回“唯快不破”的决策节奏。在Native App上，动态化能力弱导致产品决策验证周期长，团队容易陷入追求“不出错”而忽略“有意义”的困境。为此，天猫团队打造了名为AirTrack的试错平台。平台的核心是一套以A/B测试为基础、可在端上实时运行的SDK。它通过一个可动态配置的“实验条件树”来决定分桶逻辑，并支持数据埋点与分析。这种设计绕过了依赖后端数据API的传统模式，实现了代码级的、灵活的端上实验。文章分享了三个实际应用：用于配置安全发布的灰度策略，将原本跨版本的首页坑位优化决策缩短到一周内完成的对比测试，以及实现个性化弹窗的创新玩法。这套体系帮助团队能够快速验证想法并及时修正，让应用开发重新灵动起来。

IT 2016-03-21 00:25:19 / 累计浏览 1,831

Ballade: 重新诠释 Flux 架构

这篇文章探讨了如何解决 Flux 在实际应用中遇到的一些痛点。作者首先指出了 Flux 的核心价值：作为一种单向数据流架构模式，它能有效解耦视图与数据。但与此同时，当 Flux 被直接作为框架使用时，其 Actions 和 Store Callbacks 的设计在实践中暴露出代码冗余、职责划分不够清晰等问题。为此，作者开发了 Ballade 框架。它在保留 Flux 核心模式的同时，做了几项关键改进：强化了 Store 作为数据存储中心的“访问器”功能，并区分了可变与不可变数据结构；引入了 Actions Middleware 这一中间件层，将诸如异步数据获取等通用逻辑从 Action 中剥离，集中处理，这借鉴了 Redux 的思想但更贴合 Flux 的模式；同时，它简化了 Store Callbacks 的写法，让数据更新逻辑更清晰、封装性更强。通过代码对比可以看出，Ballade 使得 Action 的定义更简洁，数据流的路径（Action -> Middleware -> Dispatcher -> Store Callback）也更具约束性。这篇文章的价值在于，它不仅提出了一个改进方案，更清晰地阐述了在 Flux 哲学下，如何通过增强约束和职责分离，让架构变得更清晰、更易维护。