Solrex Shuffling -- IT技术博客大学习 -- 共学习共进步！

首页 / Solrex Shuffling

IT 2019-03-28 22:20:17 / 累计浏览 1,740

react-native-navigation 简单分析和跨页跳转

这篇讲的是作者在实际项目中使用React Native官方推荐的导航库react-native-navigation时，所遭遇的一系列痛点及其深度解析。文章并非泛泛而谈，而是直指该库的核心设计——一套独立于RN生命周期的事件机制与页面堆栈模型，并剖析了由此引发的问题。作者重点分析了其“push不销毁当前页”的机制，这虽可能出于性能考虑，却为独占系统资源（如相机、麦克风）的组件埋下了隐患。由于资源不会在路由切换时自动释放，可能引发后续页面无法正常初始化资源的严重问题。文章对此提出了利用Modal Stack或调整交互顺序的解决思路。更具实践价值的是，文章还探讨了如何“绕过”该库的串行栈限制，实现产品要求的跨页跳转。作者提供了两种具体的技术方案：一种是利用`willAppear`和`didDisappear`生命周期配合状态控制，实现“跳过”中间页的视觉假象；另一种则是通过`props`回调在父子页面间传递指令，巧妙地实现了“接力pop”，从而达到跨页返回的目的。这些技巧展现了在框架限制下寻找灵活解决方案的工程智慧。

本机暂存

IT 2019-03-27 21:16:21 / 累计浏览 2,060

手机 APP 应该选用哪个加密算法 - 兼吐槽 TEA

这篇文章从手机APP防协议分析的实际需求出发，探讨对称加密算法的选型，并特别“吐槽”了国内开发者圈对TEA算法的盲目推崇。作者通过分析指出，TEA算法的安全性存疑，且其“速度快”的印象已是过时的陈旧观念。文章的核心论点在于，在现代硬件环境下，AES算法凭借原生指令集支持，其性能已远超TEA。为了佐证，作者亲自编写代码，在骁龙835、联发科Helio P10以及苹果A8等多款典型手机处理器上进行了详细测试。数据清晰地显示，即使是在中低端CPU上，AES的加密速度也能达到TEA的数十倍。结论非常明确：对于绝大多数APP开发场景，无论是在Android上使用Java，还是在iOS上使用Objective-C/Swift，AES都应当是首选的对称加密算法，它能同时提供最优的安全性和性能。文章为开发者提供了一个基于实测数据的、非常扎实的算法选型参考。

本机暂存

IT 2019-03-26 22:21:59 / 累计浏览 2,340

ABTest 平台设计 - 如何进行流量分桶

这篇讲的是ABTest平台设计中的一个核心难题：如何科学地进行用户流量分桶。作者从实践中常见的错误切入——比如简单用UserID取模或手机尾号分桶，指出这种做法虽看似随机，但在长期、多实验场景下会导致实验间相互干扰、用户群体行为产生偏差，且流量利用率极低。文章的核心方案是介绍业界主流的“可重叠分层分桶”方法。其关键思路是将流量划分为多个逻辑层（如UI层、算法层），在每一层内使用不同的哈希函数（以层信息作为Seed）对用户ID进行分桶，从而确保各层之间的流量正交，互不影响。这样一来，一份流量可以同时参与多个层的不同实验，极大提升了迭代效率。作者还提到了适用于海量并行实验的“无限分层”思路，以及这对组织协调能力提出的更高要求。对于想设计或优化自己实验平台的技术团队，这篇文章从错误案例到系统方案，梳理得相当清晰，文末也附上了Google相关的经典论文供深入研究。

本机暂存

IT 2019-03-26 22:21:54 / 累计浏览 2,960

ABTest 平台设计 - 如何进行流量分桶

这篇讲的是ABTest平台设计中一个看似简单却容易踩坑的环节：如何进行用户分桶。作者从很多初创公司常见的错误做法——直接用UserID取模分桶——出发，点明了这种看似随机的方法在长期、交叉实验场景下会导致流量利用率低、实验结果互相干扰以及桶间用户行为产生偏差的三大问题。为了解决这些痛点，文章引出了业界主流的解决方案：可重叠的分层分桶方法。核心思路是将流量划分为多个逻辑层（如UI层、算法层），在每层内使用不同的随机算法（如Hash(Layer, Tag) % 1000）进行正交分桶。这样，同一份流量可以同时穿过多个实验层而互不干扰，极大提升了实验效率。文章还对比了适用于大公司的“无限分层”探索，指出其对组织管理和数据能力的更高要求。作者最后提到了Google相关论文作为延伸，并预告下一篇将讨论实验开关与信息传递，为搭建完整的ABTest平台提供了清晰的脉络参考。

本机暂存

IT 2012-11-26 13:51:37 / 累计浏览 2,400

那些害人的编码“神谕”

这篇讲的是编程世界里那些被奉为圭臬、却常常断章取义的“神谕”，如何反过来成为技术债和团队协作的障碍。文章以两句广为流传的名言为靶子：一句是 Donald Knuth 的“过早优化是万恶之源”，另一句是 Steve McConnell 的“好代码本身就是最好的文档”。作者指出，大家往往只记住了前半句的教诲，却忽略了其完整的、带有条件的上下文。这导致这些名言在实践中被异化成了逃避责任的借口。比如，在“过早优化”的庇护下，一些工程师对明显的资源浪费视而不见。作者列举了公司内部的真实案例：一个模块因自建内存池管理不当，导致服务器周期性内存泄漏宕机；一个仅加载几KB配置的代码，竟因使用了巨大的固定数组而占用超过1GB内存；甚至一个公共日志库，无论是否开启日志，都会无谓地执行系统调用。在这些基础性问题面前，谈论“避免过早优化”显然为时过早。而对于“代码即文档”的断章取义，则助长了不写注释的风气。作者犀利地指出，多数人的代码清晰度远未达到能自我解释的程度。当接手那些传说中的“大神”留下的、成百上千行无注释的代码时，带来的不是敬仰，而是维护的噩梦。因此，作者在团队中旗帜鲜明地主张：注释是不可省略的，甚至是应该强制执行的。这些被简化的“神谕”，反而让开发者忽视了最基础的编码规范和资源意识。文章提醒我们，在引用任何原则之前，都需理解其全貌，否则它们可能从指引明灯，变成阻碍进步的绊脚石。

本机暂存

IT 2012-11-05 22:15:20 / 累计浏览 7,500

一种抵御 DDoS 攻击的 IP 追踪技术

这篇文章来自作者2008年的一个备忘录，他决定将这个关于 DDoS 攻击防御的早期想法电子化。文章探讨了一个在 IP 协议基础上的扩展技术，即“差分确定性数据包标记”，旨在帮助服务器在遭受 DDoS 攻击时识别攻击流量并定位来源。他提出的方案核心在于，让网络边缘的接入路由器对经过的数据包 IP 头进行标记。利用一个关键假设——正常流量源 IP 与路由器接口 IP 通常仅在末尾若干位不同，路由器可以仅标记这些不同的位，而不是冗长的完整路径信息。算法中甚至用上了 IP 头里闲置的 IDENTIFICATION 字段来承载这些标记。这一改进带来了几个实际好处：大部分正常数据包仅需一个包就能完成回溯，极大减轻了路由器计算负担，同时也避免了正常 IP 分片受到标记操作的影响。当然，作者自己也坦言，这个想法创新有限，且需要在运营商全网部署，工程实现难度极高，因此当年并未发表。但它清晰地展示了一个从实际网络假设出发、优化现有协议以解决特定安全问题的技术思考过程。

本机暂存

IT 2012-10-14 22:17:41 / 累计浏览 2,460

用词典查找代替VLOOKUP

这篇讲的是用Excel内置的词典函数（如XLOOKUP）来替代经典的VLOOKUP，核心出发点是追求更简洁、更可靠的公式体验。作者从一个常见痛点切入：VLOOKUP在实际使用中经常因插入列、模糊匹配等问题需要复杂的辅助列或嵌套函数。而新推出的词典查找类函数，比如XLOOKUP，直接支持向左查找、多条件匹配，并且默认精确匹配，大幅简化了公式逻辑。文章对比了两者的典型使用场景：VLOOKUP适合对已有简单表格进行快速列查找，但在数据结构可能变动的分析模型中显得笨拙；词典查找函数则更灵活健壮，尤其适合需要动态引用、反向查找或处理多行多列结果的场景。通过几个实际用例的对比，可以看出后者不仅减少了公式的出错率，还显著提升了可读性和维护效率。总的来说，对于尚未接触过新函数的Excel用户，这篇文章提供了一个非常实际的升级路径——无需引入Python等外部工具，仅通过学习并应用Excel自身的进化功能，就能让日常数据处理工作变得更轻巧、更直接。

本机暂存

IT 2012-09-02 20:25:26 / 累计浏览 5,020

Python操作Excel

作者从伴侣单位的实际工作痛点出发：处理大型Excel报表时，跨表JOIN查询是传统方法的噩梦。通常做法是先手动合并多个工作簿到一个文件的不同工作表，再依赖VLOOKUP等函数查找。这些函数在处理海量数据时效率极低，即便榨干CPU资源，仍需耗费数小时才能完成。文章直指这个令人头疼的瓶颈，并探讨了如何用Python来彻底改变这一现状。Python生态中的pandas等库，能够高效地处理数据合并与关联查询，将原本需要数小时、依赖脆弱手动操作的任务，转化为简洁、可重复的脚本。这不仅极大地提升了处理速度，更重要的是将人从重复且易错的劳动中解放出来，让技术真正服务于提升工作效率。

本机暂存

IT 2012-05-04 00:00:11 / 累计浏览 3,720

警惕程序日志对性能的影响

这篇讲的是后台系统开发中一个常被忽视的痛点：程序日志（logging）与系统性能之间的微妙平衡。文章开篇就点出了后台开发的核心挑战——生产环境的bug难以复现和调试。因此，日志成了程序员获取系统运行信息、定位问题的“眼睛”。然而，作者随即提醒，这双“眼睛”本身也可能消耗大量系统资源。如果日志打印过于频繁或内容冗余，在高并发场景下，频繁的I/O操作和序列化开销会显著拖累程序性能，甚至成为新的瓶颈。文章并未停留在指出问题，而是引导读者思考“如何科学地打日志”。这涉及到在“信息充分”与“性能影响”之间做出权衡：比如采用分级日志、异步日志、精简日志内容或使用条件日志等策略。作者的核心观点是，优秀的后台工程师不仅要懂得如何记录日志，更要懂得如何“克制”与“设计”日志策略。这对于每一位运维关键服务的开发者都很有启发：日志系统不是免费的，它需要被当作一个需要精心调优的组件来对待。在追求系统可观测性的同时，必须对其性能代价有清醒的认识和规划。

本机暂存

IT 2012-03-04 17:42:50 / 累计浏览 2,640

妄谈时间序列表格型大数据系统设计

这篇讲的是一位长期深耕分布式系统领域的工程师，如何鼓起勇气，将自己在时间序列表格型大数据系统设计上的一线实战心得分享出来。作者以“妄谈”为题，坦诚地回顾了自己从新人到承担重任的过程，在兴奋与懊恼中积累了那些“老手才懂”的经验。文章并未提供某种完美的理论方案，而是真实展现了在应对海量、高吞吐的时序数据挑战时，从系统架构设计到细节实现中所经历的思考、权衡甚至失误。这些在真实业务中摸爬滚打得来的一手经验，恰恰是许多理论文章所缺乏的。对于同样需要处理时序数据的技术同行来说，文中的这些“醉人的课程”，或许能让你在构建自己的系统时，少踩一些坑，多一份从容。

本机暂存

IT 2011-11-14 23:39:18 / 累计浏览 1,840

代码行统计工具-CLOC

这篇讲的是代码行统计工具CLOC如何解决开发者在项目统计中遇到的难题。作者从实际工作中统计代码行数的常见需求出发，指出虽然wc命令能快速给出大致结果，但当项目文件分散、涉及多种编程语言时，wc的局限性就显现出来——它无法区分语言类型，统计结果笼统，难以用于精细化分析。 CLOC工具则

本机暂存

IT 2011-11-13 21:12:48 / 累计浏览 5,920

TCP Fast Open by Google 浅析

这篇讲的是Google即将在ACM CoNEXT会议上发表的一项关于降低Web应用响应延迟的工作。它聚焦于改进TCP协议，通过一种名为“TCP Fast Open”的技术，允许客户端在建立连接的三次握手阶段就携带应用数据发送，从而争取省去一次往返时延（RTT）。文章提到，虽然论文刚刚发布，但相关的RFC草案其实早在2011年3月就已提交给IETF，并在近期进行了更新。作者从这个协议草案的演进出发，分析了TFO技术的基本原理：服务器可以向支持该特性的客户端返回一个加密的Cookie，后续该客户端在发起新连接时，就可以在SYN包中直接带上首部请求数据（如HTTP GET），服务器在验证Cookie有效后即可立即处理该请求，无需等待握手完成。这意味着对于频繁访问的网站，页面加载的首字节时间能够得到显著改善，特别是在高延迟或易丢包的网络环境下。从草案的持续更新来看，这项技术正朝着标准化稳步推进，可能会成为未来提升Web性能的一个基础性优化。

本机暂存

IT 2011-11-04 21:53:57 / 累计浏览 2,300

关于自动分裂的思考

这篇讲的是分布式系统中自动分裂技术的实践思考。作者从自动分裂、自动迁移和负载均衡这三个常被一起讨论的技术点出发，指出它们共同支撑着系统的可扩展性与性能。文章特别提到，像 Google 的 BigTable 和 Yahoo 的 PNUTS 这类知名系统都实现了自动分裂功能，这也曾让作者认为它应是优秀分布式系统的“标配”。不过，文章并未止步于介绍概念。作者结合自身经验，分享了对自动分裂实际价值的反思：它虽能带来扩展性，但其复杂性和潜在的运维成本是否始终值得？在何种场景下，它才是真正的必需品而非“过度设计”？这种从“理所当然”到“审慎评估”的视角转变，为技术选型提供了更务实的参考。

本机暂存

IT 2011-09-25 13:26:22 / 累计浏览 3,540

Leveldb 编译错误背后的C++标准变化

这篇文章从作者在编译Leveldb时遭遇的一个具体错误展开。错误提示指向了某些代码特性不被当前编译器支持，这看似是本地环境配置问题，但作者没有止步于此。他深挖发现，根源在于项目代码与C++语言标准演进之间的冲突。Leveldb的部分旧式代码写法，在C++11/14/17等逐步强化的规范和编译器更严格的默认检查下，从“能编译通过”变成了明确报错。这不仅仅是修复一行代码的事，背后是不同C++标准对语法合法性和类型检查的尺度差异。作者详细梳理了从定位错误、分析编译器行为差异，到最终通过调整编译参数（如指定特定的C++标准版本）或进行小幅代码迁移来解决问题的完整过程。文章的价值在于，它跳出了单纯的“故障排除”，点明了许多开源项目在依赖工具链升级时普遍会遇到的“标准适配”困境。对于需要在不同环境、不同版本编译器下构建项目的开发者，文中提供的思路——追溯错误到标准差异层面去解决——比单纯给出修复代码更具参考意义。

本机暂存

IT 2011-08-26 22:37:40 / 累计浏览 3,320

Infobright 数据仓库

这篇讲的是作者在实际工作中初次接触 Infobright 列式存储数据库后的一些学习感悟。作者从实践中感受到，Infobright 与传统关系型数据库（如 MySQL）在设计和适用场景上有显著区别。它的核心亮点在于采用了列式存储引擎和独特的数据压缩机制，特别适合对海量数据进行分析型查询的场景。文章提到，与行式存储的 MySQL 相比，Infobright 在处理宽表和大数据量时展现出高性能。它通过“数据包”组织列数据，并利用高级别数据压缩（压缩比可达40:1），极大地减少了存储空间和 I/O 开销。查询时无需建立索引，而是通过元数据和数据直方图快速定位，这使得它对大规模数据扫描和聚合计算非常友好。不过，这种优势也伴随着取舍。Infobright 针对的是数据仓库中常见的只读或低更新场景，对于频繁的事务性写入和更新操作并不擅长。作者通过初步探索，感受到了它在特定场景下的强大，读完后对这种专注于特定场景的数据库设计思路有了更直观的认识。

本机暂存

IT 2011-08-18 13:47:10 / 累计浏览 2,820

技术人员的眼界

这篇文章从一个技术人早年在南大数学系的经历讲起，作者大一新生时曾认为只要专注手头的事就好，拒绝参加任何交流活动，把时间都花在了小说上。直到后来参加学长组织的经验交流会，他才真正意识到“眼界”的重要性。这种看似朴素的反思，恰恰点中了许多技术人员成长过程中的一个关键盲区。文章的核心观点是：技术能力的精进固然离不开扎实的埋头苦干，但视野的拓展同样不可或缺。作者以亲身经历说明，很多关键认知——无论是关于技术方向、职业规划还是行业趋势——往往并非来自闭门造车，而是在与同行、前辈的偶然交流中获得的。那些“没有明确主题”的闲聊，有时反而能带来意想不到的启发。这篇短文没有宏大的理论，却用切身教训提醒我们：作为技术人员，在代码和文档之外，主动创造与人交流、拓宽见闻的机会，本身就是一种值得投资的能力。它让我们在面对技术选择时，多一份全局的视角，少一些路径的依赖。

本机暂存

IT 2011-07-31 12:47:23 / 累计浏览 4,080

epoll 事件之 EPOLLRDHUP

这篇讲的是，作者在一次系统排查中遇到了一个颇为棘手的现象：明明是远端客户端主动断开了连接，服务端的日志里却打印了一个查询失败的错误。然而从最终用户的视角看，整个请求的响应是完全正常的，这造成了内部监控与真实用户体验之间的“错觉”。问题的根源，被锁定在了对epoll事件处理的细节上。文章深入探讨了EPOLLRDHUP这个事件标志位的作用。在默认的处理逻辑中，服务端可能并未精确区分“连接正常关闭”与“连接上发生错误”这两种不同的关闭原因，从而导致在对方正常FIN时，程序也走到了错误处理的分支。作者不仅指出了这个容易被忽略的“坑”，更分享了如何利用EPOLLRDHUP来完善状态机。通过正确监听和处理这个事件，服务端就能准确识别出“对端已关闭写通道”这一事实，从而做出恰当的资源清理和日志记录，避免误报。文章从一次实际的困惑出发，最终落脚于对epoll底层机制更精细化的掌控，对处理网络编程中的边界情况很有启发。

本机暂存

IT 2011-07-24 15:04:49 / 累计浏览 11,480

Facebook的实时Hadoop系统

这篇讲的是一位技术人如何解读Facebook在2011年发布的那篇经典论文——《Apache Hadoop Goes Realtime at Facebook》。作者并非简单复述论文，而是从自己负责的系统面临相似挑战的角度出发，拆解Facebook为打造实时HBase系统所用的核心“秘技”。文章背景是，Facebook需要突破当时Hadoop批处理系统的延迟瓶颈，以满足实时查询需求。论文详细阐述了他们如何对HDFS和MapReduce进行改造，比如通过数据预取、延迟持久化和优化NameNode内存管理等手段，硬生生将Hadoop生态推向了“实时”领域。作者细致地分析了这些工程上的权衡与创新，例如如何在保证数据一致性的前提下大幅降低写入延迟。更重要的是，作者将这些方案与自己的问题域进行对照，分享了切身的思考和感想。这种从具体实践出发、结合经典论文的深度剖析，对于同样在与数据处理时效性打交道的开发者来说，提供了一个极具参考价值的观察视角。

本机暂存

IT 2011-07-05 23:13:44 / 累计浏览 6,920

在百度的第一年

这篇讲的是作者在百度工作第一年的心路历程。文章从一个很真实的细节切入：某个亢奋的夜晚，作者忽然想梳理这一年，并给出了一个高度概括的结论——前半年拼命给自己揽事儿，后半年尽量往外推事儿。这并非简单的工作量增减，背后是职场认知的深刻转变。前半段的“揽”，是新人急于证明自己、渴望学习成长的典型心态，主动承接任务以快速融入和积累。而后半段的“推”，则更值得玩味：它可能意味着对职责边界的清晰认知、对工作优先级的重新判断，或是从“执行者”向“规划者”思维演进的开端。文章坦诚地展现了这种从热情迸发到理性收敛的轨迹，没有停留在表面抱怨或炫耀，而是提供了关于职业初期如何平衡“广度”与“深度”、如何界定个人责任的朴素思考。对于许多技术新人而言，这篇更像一面镜子，映照出相似的心路阶段，而作者的直白复盘，则为如何平稳度过这一阶段提供了参照。

本机暂存

IT 2011-06-24 12:24:37 / 累计浏览 3,520

Shell Tips: Unix 时间到字面

这篇讲的是在日常数据处理中，一个非常具体但又常常困扰人的小问题：如何快速将Unix时间戳转换成可读的日期时间格式。作者从自身处理报表数据的工作场景出发，面对交换文件里满屏的Unix时间数字，为了核对正确性，迫切需要一种高效的转换方法。文章的核心就是分享一个实用的Shell技巧。它对比了Unix时间戳（一个从1970年开始的秒数，机器友好但人类看不懂）和字面时间（如“2024-01-01 12:00:00”）这两种表示形式，并给出了利用`date`命令进行转换的具体操作。这种转换在数据校验、日志分析等场景下尤为关键，能立刻将抽象数字还原为直观的时间点。作者没有堆砌复杂的理论，而是从真实痛点切入，提供了一个可以直接套用的命令行解决方案。对于需要频繁与时间字段打交道的技术人员来说，这个小技巧能实实在在地提升数据检查的效率。

本机暂存