Dump Plugin并行化实践

搜索技术博客－淘宝 2012-09-03 13:47:47 累计浏览 1,623 次

本机暂存

内容概览

这篇讲的是搜索Dump中心如何通过模块化设计，将原本串行的Plugin业务逻辑转变为可并行处理的架构。

文章的出发点很明确：在Dump中心服务化的项目中，数据产出被拆分为Loader（数据准备）和Join（逻辑计算）两个阶段。Join阶段需要处理各种复杂的业务逻辑，这些逻辑繁琐且容易出错，为了实现逻辑复用与解耦，团队设计了一套Plugin接口，允许不同的业务方将计算逻辑封装成独立的模块。

作者从这个Plugin架构的由来和设计讲起，核心聚焦于如何让这些Plugin并行化运行。这不仅仅是简单的多线程调度，而是涉及到对Plugin依赖关系的分析、执行框架的改造以及资源隔离等实际工程问题。文章具体描述了在现有架构上实施并行化的实践步骤与遇到的挑战，展示了从单线程顺序执行到充分利用计算资源进行并行产出的完整过程。

通过这次实践，Dump系统在Join阶段的执行效率得到了显著提升，处理大量业务逻辑插件的整体耗时大幅缩短，为下游数据消费提供了更及时的支持。

先简单介绍下Dump Plugin的由来，在搜索Dump中心服务化的项目中，我们把Dump中心的增量数据产出分为2个阶段，Loader阶段和Join阶段，Loader阶段把数据准备成Key-Values形式，Join阶段将数据取出，计算各种业务逻辑并产出最终数据。业务逻辑的计算是相当繁琐且易出错，这类事情做一遍足以，所以设计了一个接口，按照业务自身划分成一个个小块逻辑实现接口。这些个小业务逻辑模块即构成Dump的业务Plugin。

这样做的好处：

1，按业务本身划分，结构相对清晰，容易维护。

2，架构和业务通过接口交互，重构架构将尽可能少的影响业务代码

3，每个业务模块的耗时能准确统计出并能做针对性的优化。

在最初的版本中，先根据依赖关系计算好plugin的执行顺序，然后顺序执行，是一个串行的过程，如下图：

此种方式，计算耗时与业务的复杂程度成正比。而目前Dump中心已经有十几个个业务逻辑Plugin，并且plugin之间有复杂的依赖关系。所以我们尝试用更高效的并发方式去运行这些plugin。这个项目用的开发语言是Java，Java的多线程有多种成熟的设计模式，结合现有框架，我们设计了两种方案并分别尝试。

方案1，以单条数据为粒度，在一条数据的运行内部实现并行化，如下图:

简单的来说，就是起一个工作线程组来运行plugin，来一条数据后，工作线程根据依赖关系获取当前可运行的plugin，当所有plugin都运行完毕后，输出数据。类似于Work Thread模式，工作线程没数据就等着，来了数据就做。主要代码流程如下：

public class Main {
 private Semaphore mainSemaphore, workSemaphore;
 private Data data;
 private int workThreadNum;

 public Data run(Data data) {
   this.data = data;
   workSemaphore.release(workThreadNum);
   mainSemaphore.acquire(workThreadNum);
   return this.data;
 }

 class WorkThread implements Runnable {
 private boolean loop = true;
 public void run() {
   while(loop) {
     workSemaphore.acquire();
     //getValidPlugin: 一个synchronized的调用，获得未运行的Plguin
     Plugin plugin = getValidPlugin();
     if(plugin != null)
       plugin.run(data);
     else
       mainSemaphore.release(1);
     }
   }
 }
}

代码中使用两个Semaphore信号量来同步主线程和工作线程，每条数据都需要激活和同步，并有一个synchronized的方法来获取当前可运行的Plugin，线程同步开销比较大。实现过程中，采用重任务优先，预先计算等方法，降低并行额外引入的开销。在单个Plugin耗时长，关键路径和非关键路径上的plugin耗时相差不大的情况下，此种方案效果不错。但在目前的业务情况下，效果提升不明显，实测约提升了10%。

通过分析plugin的依赖关系，发现目前业务逻辑下，有两个耗时大的plugin均是关键路径上的，方案1的并行是针对单个宝贝的，我们想能否在批量数据或数据流中实现数据维度的并行。数据维度的并行，最简单的方案是将数据逐条扔给ThreadPoolExecutor，每个线程串行执行，但这种方案对于现有结构来说不合适，原因是plugin的代码无法保证线程安全，于是就有了方案2，如下图：

每个Plugin都起一个工作线程，数据像流水线一样从Plugin中间流过，plugin的依赖关系决定数据的流向，类似于Guarded Suspension模式，工作线程维护一个Queue来缓存，等plugin准备好，就从Queue中取数据处理。主要代码流程如下：

public interface QueuePutter {
 public void put(Data data);
}

public class Main implements QueuePutter{
 private BlockingQueue resultQueue = new LinkedBlockingQueue();

 public List run(List dataList) {
   List resultList = new ArrayList();
   for(Data data : dataList) {
     firstPluginThread.put(data);
   }
   putLastData();
   while(true) {
     Data data = resultQueue.take();
     if(isLastData(data)) break;
     resultList.add(data);
   }
   return resultList;
 }

 public void put(Data data) {
   this.resultQueue.put(data);
 }
}

public class PluginThread implements Runnable,QueuePutter {
   private Plugin plugin = null;
   private PluginThread nextPluginThread = null;
   private boolean loop = true;
   private BlockingQueue queue = new LinkedBlockingQueue(10);

   public PluginThread(Plugin plugin, QueuePutter next) {
     this.plugin = plugin;
     this.nextPluginThread = next;
   }

   public void run() {
     while(loop) {
       Data data = this.queue.take();
       data = this.plugin.run(data);
       this.nextPluginThread.put(data);
     }
   }

   public void put(Data data) {
     this.queue.put(data);
   }
 }

代码中同步操作通过BlockingQueue来实现。主线程将数据分发给第一个plugin线程，而最后一个plugin线程负责将数据写回给主线程。主线程用一条特殊的数据来标识这组数据的结尾，而后在主线程队列里一直扫描特殊数据，FIFO队列保证了处理的时序。逻辑上来说，方案2的单条数据的处理还是串行，而是多条数据之间的并行，整体性能只取决于最慢的Plugin的耗时，实测中对于批量数据来说，效果要好于方案1。

总结：实践Dump Plugin并行的两种实现方式，对单数据的列并行和对批量数据/数据流的行并行。

同分类推荐文章

等了十年的 Go 链式管道，终于来了：seq 让你像写 Scala 一样写 Go （2026-06-25 18:38:18）
Go 实验特性详解（2026-06-21 10:05:27）
amd64 微架构级别对 Go 程序性能提升多少？（2026-06-21 09:38:49）

查看更多后端文章 →

建议继续学习

面试IT业界顶尖企业所应该知道的10道题(1) （累计阅读 8,525）
百度日本-四面楚歌（累计阅读 8,005）
AWK介绍（累计阅读 6,709）
IMDB评分排名算法（累计阅读 5,818）
接口设计规则一：让你的接口会说话（累计阅读 4,504）
个性化离线实时分析系统pora （累计阅读 3,549）
海量数据处理专题（六）――双层桶划分（累计阅读 3,398）
从亚运会看框计算与数据时效性（累计阅读 2,590）
xlrd 读取 xls （excel）的日期、时间单元格的问题（累计阅读 2,547）
WordPress 插件工作原理剖析（累计阅读 2,531）