地图检索

搜索研发部官方博客 2011-11-16 23:40:26 累计浏览 2,686 次

本机暂存

内容概览

这篇文章探讨的是百度地图如何解决海量空间数据下的实时检索难题。背景是地图服务需要支撑亿级用户的实时POI（兴趣点）查询，这对检索系统的响应速度和并发能力提出了极高要求。

作者团队的核心方案是设计了一套融合了多种技术的分布式检索架构。方案的关键在于两方面：一是采用了层次化的空间索引结构，将全国地理网格化，并对不同层级的数据建立多维度的索引；二是在查询时，利用用户设备坐标和搜索词等多路召回策略，动态估算查询范围，并通过负载均衡策略将请求路由到最合适的计算节点。

这套架构的巧妙之处在于它平衡了检索的精准性与系统整体性能。通过动态范围估算，避免了全量索引扫描带来的巨大开销。文章给出了具体的性能数据：在峰值查询压力下，系统依然能将平均检索延迟控制在数十毫秒内，有力支撑了地图“秒级”响应的产品体验。

前言：

半年前，和师弟在一起吃饭时，他忽然抬头，很好奇地问我：“为什么有了百度的大检索，百度地图还要自己做检索呢？”这个问题也一直伴随着我，后来有幸转入检索方向，不断摸索，也才有了这篇文章。

正文：

地图检索，顾名思义，是在地图里的检索。它与大检索大同小异，虽然在切词粒度、专名识别、拉链归并和rank等很多细节上与大检索有一定差异，然而真正让他与众不同、独具风采的，是地图领域所特有的空间位置信息。

在地图检索领域中，每条query都富含空间信息，每条数据也都有自己的空间位置。如何解析、利用这些空间信息，就成为了地图检索的特色主线。本文也就这个主题进行介绍，在章节安排上，参考一个普通query的检索过程，分为三大部分：query解析、查询与归并、rank。

1. query解析中的位置信息

传统检索的query解析，主要功能是对query进行类型识别、分词、同义等处理，以便后续查询与rank。地图检索里的query解析，不仅包含了传统解析的功能，而且要从用户的query里去挖掘空间位置信息。

为什么要这么做呢？举几个简单的例子：

例1：北京和上海都存在数据点“第一上海中心”，那么身在北京的用户A和身在上海的用户B，同时检索“第一上海中心”，结果是否需要有所不同呢？

例2：用户在地图中输入query“中关村肯德基”，我们没有叫“中关村肯德基”的数据点，但却有许多位置在中关村附近的肯德基点，那么我们如何召回呢？

这两个例子形象地描述了用户发起检索所包含的两种空间位置信息，以及我们为什么要去挖掘这些空间信息。

首先，例1对应的是一次检索中所隐含的位置倾向信息。用户所在的城市(可用ip地址近似模拟或者无线设备定位)、用户输入query时的上下文场景(主要是底图所在城市)是两种比较直观的位置倾向信息；我们需要利用这两种数据来大致判定结果的位置倾向，以便提供更优秀的检索结果。相对来讲，这是一种粗粒度的位置信息。

其次，例2对应的是query的子term中所明确包含的位置信息。地图query的特点在于，某些term是表示检索范围的(空间位置)，某些term是表示文本实体的；“中关村肯德基”中，“中关村”表示检索范围，“肯德基”表示实体，这个query可以理解为用户想检索“在中关村附近的肯德基”，也就是在“中关村”附近检索“肯德基”。相对来讲，这是一种细粒度的位置信息。

总而言之，地图的query解析需要去挖掘query中的隐含或明确的位置信息，从而真正理解用户的需求。

2. 查询与归并中的位置信息

经过query解析之后，query中的term被分为两种，一种表示空间，一种表示文本，如何利用这些term的属性，来召回最合适的数据，就成为另外一个问题。

让我们来看看地图检索的查询归并与传统检索的不同：

图1. 普通检索与地图检索的查询归并对比

如图1所示，普通检索的查询归并结果，是“中关村”和“肯德基”文本查询集合的交集；而地图检索的查询归并结果，除了两者的文本交集之外，还包括“肯德基”的文本查询集合与“中关村”的空间范围的交集，而往往后者召回的比前者要多。

也就是说，我们不仅要召回传统文本上的归并结果，也要从空间维度上去做归并，从而得到更多、更准确的召回。

3. rank中的位置信息

与传统检索展示文本列表不同，地图结果以图区加icon的形式，将结果非常形象地展现在底图上，而这也给地图检索的rank提出了新的需求：我们不能停留在文本相关度这一单一维度上，而是要给用户呈现准确而舒适的结果。

那么这个舒适体现在什么地方呢？这里也举两个例子给大家看一下：

图2.a 图2.b 图2.c

北京市下检索“清华大学”，如果在海淀区和朝阳区都有清华大学相关的数据，那么可以有三种结果展现形式，如图2.a 到 2.c所示。图2.a是普通的未经空间调权的rank结果，图区拉得很大，右下角的结果对90%以上的用户都是噪声，显示效果不够友好；图2.b则是经过空间调权后的rank结果，视野集中在“清华大学”主点附近，效果要优于图2.a，但是这同样给出了一大堆相关结果列表，也会干扰用户；图2.c则是经过空间内聚形成的结果，精确命中“清华大学”主点，图区大小合适，显示效果最好。

这个例子展示了如何利用结果的位置信息来提升体验，下面再给大家介绍一下用户的位置信息的利用：

图3.a 图3.b

当用户检索生活类泛需求词时，那么用户所在位置信息就显得至关重要。如图3所示，用户如果在百度大厦用移动设备检索“餐馆”，图3.a是未经空间距离调权的结果，显得比较杂乱；图3.b则是以用户所在地为中心点，进行距离调权后的结果，则显得更紧凑，优先级更直观。

由此可见，地图检索的rank仅仅考虑文本相关性是不够的，还需要考虑空间位置信息，包括query和检索结果的位置信息，也包括用户的位置信息。只有充分运用好这些位置信息，才能给用户更准确、更舒适的结果。

介绍到这里，相信大家已经对地图检索里的空间信息有了直观的认识。事物总有正反两面，空间位置信息的引入虽然使得地图检索充满魅力，但也成为了地图检索的重点与难点。如何有效地利用这些信息，使其与传统的文本相关性、实体重要性等因素相互作用、形成合力，是一个需要我们不断去征服的高峰。

同分类推荐文章

对基本有序的序列排序算法（2026-06-11 17:46:49）
Four Levels Of Customer Understanding （2026-05-22 21:00:00）
除法的意义（2026-04-12 20:52:17）

查看更多算法文章 →

建议继续学习

如何高效使用搜索引擎（累计阅读 36,792）
相似度计算常用方法综述（累计阅读 10,602）
淘宝搜索：定向抓取网页技术漫谈（累计阅读 9,529）
简析搜索引擎中网络爬虫的搜索策略（累计阅读 7,442）
基于用户行为分析的搜索引擎自动性能评价（累计阅读 5,777）
一个简单的中文分词程序（累计阅读 5,504）
阿里巴巴国际站P4P引擎系统简介（累计阅读 5,337）
如何计算两个文档的相似度（二）（累计阅读 5,232）
文言文白话文互转：文言文转白话文（现代文），白话文（现代文）转文言文（累计阅读 5,156）
漫话中文分词算法（累计阅读 4,978）