淘宝搜索 -- IT技术博客大学习 -- 共学习共进步！

• 从未降级的搜索技术-Hippo在线服务调度系统

笔者最早接触的是Condor/HTCondor，搞过网格计算的同学应该比较了解；Goolge的Borg应该算是一开始借鉴了很多Condor的东西，Omega则是在解决borg的单master调度的瓶颈问题；Tencent的Tborg/Torca则是和Borg系统有很深的渊源；Yarn和Mesos应该是被更多的人所熟知，都支持多种计算框架；对AutoPilot的认知更多来自于相关的论文；Baidu的系统其实蛮有意思，特别是IDLE（有个组件可以随意种植在任何机器上，当机器空闲的时候则调度一些低优先级并且可以随时K掉的计算任务上去执行，而且他们的PE人员身背机器利用率的KPI，大家都求着调度任务上去，这和咱们的现状完全是两样）；FUXI和T4是集团内的系统，大家想要了解可以在内网找到他们。

• 聊聊多线程程序的load balance

说起load balance，一般比较容易想到的是大型服务在多个replica之间的load balance、和kernal的load balance。前者一般只是在流量入口做一下流量分配，逻辑相对简单；而后者则比较复杂，需要不断发现正在运行的各个进程之间的imbalance，然后通过将进程在CPU之间进行迁移，使得各个CPU都被充分利用起来。而本文想要讨论的load balance有别于以上两种，它是多线程（多进程）server程序内部，各个worker线程（进程）之间的load balance。

• 从未降级的搜索技术-天猫SKU搜索

SKU，Stock Keeping Unit，库存单元，是商品库存的最小单位。通俗的讲，一种商品可能有各种规格的货，每一种货就是一个SKU。搜索引擎是以商品作为检索单位，没法提供更细粒度（SKU粒度）的检索功能。于是，为了提升用户的搜索体验，为了把搜索做得更好，搜索引擎需要支持SKU粒度的检索。

• 从未降级的搜索-主搜索分层优化

多年以来，主搜索的集群架构和排序算法相对比较单一，一定程度上制约了搜索业务的发展。本文主要介绍主搜索最新采用的索引分层技术。这种分层技术把主搜索集群架构从二维扩展到了三维。基于这种三维的新架构，主搜索可以根据不同的应用场景，选择不同的检索和排序算法，从而更好的提升主搜索的检索性能与检索效果。实践表明，这种分层技术能提升主搜索120%的检索性能和6%的搜索GMV。

• 当cpu飙升时，找出php中可能有问题的代码行

当你发现一个平时占用cpu比较少的进程突然间占用cpu接近100%时，你如何找到导致cpu飙升的原因？我的思路是，首先找到进程正在执行的代码行，从而确定可能有问题的代码段。然后，再仔细分析有问题的代码段，从而找出原因。

• HQueue：基于HBase的消息队列

HQueue是一淘搜索网页抓取离线系统团队基于HBase开发的一套分布式、持久化消息队列。它利用HTable存储消息数据，借助HBase Coprocessor将原始的KeyValue数据封装成消息数据格式进行存储，并基于HBase Client API封装了HQueue Client API用于消息存取。 HQueue可以有效使用在需要存储时间序列数据、作为MapReduce Job和iStream等输入、输出供上下游共享数据等场合。

• Pora2应用中HBase高并发读写性能优化

高并发读写HBase的应用需要尽量保证对HBase的合理使用，不合理的使用有可能会导致某一个region server甚至整个hbase集群的性能出现问题，而hbase的性能问题又反过来使得所有应用性能下降，此时如果应用选择继续加大对hbase的并发访问，甚至有可能因此陷入一个性能继续变差的恶性循环。

• memory prefetch浅析

最近在用vtune分析程序性能瓶颈时，发现一些内存访问的地方竟然成了cpu热点。经过仔细分析，发现这些热点主要是对大数组非连续位置的访问的引起的。比较消耗cpu的原因应该是cache不命中。因为像这样局部性很差的内存访问逻辑，对cache是很不友好的。于是想到了prefetch……

• PHP语法分析器：RE2C && BISON 总结

在这之前，我曾经尝试过一个项目，就是将我们的PHP代码自动生成so扩展，编译到PHP中，我叫它 phptoc。但是由于各种原因，暂停了此项目。写这篇文章一是因为这方面资料太少，二是把自己的收获总结下来，以便以后参考，如果能明白PHP语法分析，那对PHP源码的研究会更上一层楼地 ^.^…

• 小心，apc可能导致php-fpm罢工！

最近线上产品出现了502错误。一般出现502错误，都是php-fpm 进程处理请求时出现异常导致的。首先，查看了php-fpm 的进程数。发现php-fpm的进程数已经到达了php-fpm.conf中设置的最大值。最近流量没有特别的变动，这么多php-fpm进程，肯定有问题。

• redis超时问题分析

Redis在分布式应用中占据着越来越重要的地位，短短的几万行代码，实现了一个高性能的数据存储服务。最近dump中心的cm8集群出现过几次redis超时的情况，但是查看redis机器的相关内存都没有发现内存不够，或者内存发生交换的情况，查看redis源码之后，发现在某些情况下redis会出现超时的状况，相关细节如下。。。。

• gbk和utf8编码自动识别方法[php版]

目前中文网页主流的编码为gbk和utf8两种编码。因此，我们做编码识别的前提是，编码不是gbk就是utf8. 编码自动识别的基本思想如下。。。。。。

• 萃取(traits)编程技术的介绍和应用

最近在写C++代码的时候, 经常能使用到萃取(traits)编程技术, 于是学习STL中关于萃取的知识, 并总结出来, 以飨读者, 同时加深自己的理解.

• 使用HBase EndPoint（coprocessor）进行计算

拿row counter这个简单例子来说，我要统计总行数，如果每个region 告诉我他又多少行，然后把结果告诉我，我再将他们的结果汇总一下，不就行了么？现在的问题是hbase没有提供这种接口，来统计每个region的行数，那是否我们可以自己来实现一个呢？没错，正如本文标题所说，我们可以自己来实现一个Endpoint，然后让hbase加载起来，然后我们远程调用即可。

• 解决进程间共享内存，由于某个进程异常退出导致死锁问题

我们都知道加锁是有开销的，不仅仅是互斥导致的等待开销，还有加锁过程都是有系统调用到内核态的，这个过程开销也很大，有一种互斥锁叫Futex锁(Fast User Mutex)，Linux从2.5.7版本开始支持Futex，快速的用户层面的互斥锁，Fetux锁有更好的性能，是用户态和内核态混合使用的同步机制，如果没有锁竞争的时候，在用户态就可以判断返回，不需要系统调用，当然任何锁都是有开销的，能不用尽量不用，使用双Buffer，释放链表，引用计数，都可以在一定程度上替代锁的使用。

• JVM的GC简介和实例

本文是一次内部分享中总结了jvm gc的分类和一些实例, 内容是introduction级别的,供初学人士参考.

• 玩转robots协议

网站内容的所有者是网站管理员，搜索引擎应该尊重所有者的意愿，为了满足以上等等，就需要提供一种网站和爬虫进行沟通的途径，给网站管理员表达自己意愿的机会。有需求就有供应，robots协议就此诞生。Robots协议，学名叫：The Robots Exclusion Protocol，就搜索引擎抓取网站内容的范围作了约定，包括网站是否希望被搜索引擎抓取，哪些内容不允许被抓取，把这些内容放到一个纯文本文件robots.txt里，然后放到站点的根目录下。爬虫抓取网站内容前会先抓取robots.txt，据此“自觉地”抓取或者不抓取该网页内容，其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。

• 不同SSD盘组合搜索引擎单机性能测试[2013年版]

1. 对比A7机型和C5机型，C5的CPU性能较好(主频2.3，A7主频1.9)，单盘时IO是瓶颈，而A7机型瓶颈在CPU，锁比较厉害，需要解决； 2. IO瓶颈解决方法有两种，两块SSD盘做RAID0，有12%的性能提升，而两块盘不做RAID，可以达到18%的性能提升。两块盘不做RAID性能优于做RAID； 3. 不同块数SSD盘测试引擎性能无异，此时瓶颈已经从单盘时的IO瓶颈转移到CPU瓶颈； 4. 随着CPU性能的提升，IO是瓶颈，是主要矛盾，此时的解决方案可以是用多块SSD盘按term切分存索引。而当随着SSD盘数的增多，CPU则成为瓶颈，成为主要矛盾，spin_lock及smp_invalidate_interrupt消耗过大，20%~40%的CPU消耗，需要解决此问题； 5. A7机型是单SSD盘，考虑到SSD盘的写性能及写寿命，推荐普通盘存log+SSD盘，增量索引可以单独存放。如果需要SSD盘写，则要考虑分区对齐、一些挂载选项及定时TRIM；

• google group varint 无损压缩解压算法的高效实现改进版

之前实现了一个版本: google group varint 无损压缩解压算法的高效实现。近期对其进行了一次改进，性能提升 20%，不废话，上代码，有兴趣的自己看，如果我的注释不够清晰，请联系我修改

• 分享两个强符号，弱符号引起的编译问题

分享两个强符号，弱符号引起的编译问题。由于SP的编译分为debug和release两种模式（话说也没有谁不这么编吧），往往在debug开发的时候没有遇到的问题，在release阶段暴露了，这里面最容易出现的就是弱符号丢失，导致符号定位出错或者符号没找到的问题。