基于Solr的空间搜索（2）

淘宝网综合业务平台团队博客 2013-08-15 13:39:11 累计浏览 3,258 次

本机暂存

内容概览

这篇讲的是Solr+Lucene实现空间搜索中GeoHash方案的源码级剖析。作者从索引构建和查询解析两个阶段切入，展示了如何将经纬度转换为Base32的GeoHash编码存入索引，以及查询时如何通过`SpatialFilterQParser`解析用户的距离查询语法。

核心聚焦在查询阶段的实现链条：从`GeoHashField.createSpatialQuery`生成查询，到`ValueSourceRangeFilter`和`GeohashHaversineFunction`协作过滤文档。作者特别指出了流程中一个可能影响性能的环节——过滤逻辑会遍历索引中的所有文档（从docId=0开始），逐一计算每个文档坐标与查询点的球面距离，并判断是否在指定范围内。源码中也有“TODO: optimize this”的标注，表明作者对这种全量遍历加计算的效率有所疑虑。

整体来看，文章像一次带读者拆解黑盒的代码导读，不仅说明了“怎么做”，也提出了对当前实现效率的思考，为理解Solr空间查询的内部机制提供了扎实的细节。

本文将继续围绕Solr+Lucene使用Cartesian Tiers 笛卡尔层和GeoHash的构建索引和查询的细节进行介绍

在Solr中其实支持很多默认距离函数，但是基于坐标构建索引和查询的主要会基于2种方案：

(1)GeoHash

(2)Cartesian Tiers+GeoHash

而这块的源码实现都在lucene-spatial.jar中可以找到。接下来我将根据这2种方案展开关于构建索引和查询细节进行阐述，都是代码分析，感兴趣的看官可以继续往下看。GeoHash

构建索引阶段

定义geohash域，在schema.xml中定义：

接下来再构建索引的时候使用到lucene-spatial.jar的GeoHashUtils类：

String geoHash = GeoHashUtils.encode(latitude, longitude);//通过geoHash算法将经纬度变成base32的编码document.addField(“geohash”, geoHash); //将经纬度对应的bash32编码存入索引。

查询阶段

在solrconfig.xml中配置好QP，该QP将对用户的请求Query进行QParser，

查询语法规范是{!spatial sfield=geofield pt= latitude, longitude d=xx, sphere_radius=xx }

sfield:geohash对应的域名

pt:经纬度字符串

d=球面距离

sphere_radius：圆周半径

接下来看看QP是如何解析上述查询语句，然后生成基于GeoHash的Query的，见如下代码，代码来源SpatialFilterQParser的parse()方法：

//GeohashType一定是继承SpatialQueryable的

if (type instanceof SpatialQueryable) {

double radius = localParams.getDouble(SpatialParams.SPHERE_RADIUS, DistanceUtils.EARTH_MEAN_RADIUS_KM); //圆周半径

//pointStr=经纬度串，dist=距离，DistanceUnits.KILOMETERS 距离单位

SpatialOptions opts = new SpatialOptions(pointStr, dist, sf, measStr, radius, DistanceUnits.KILOMETERS);

opts.bbox = bbox;

//通过GeoHashField 创建查询Query

result = ((SpatialQueryable)type).createSpatialQuery(this, opts);

}

其中最核心的方法便是GeoHashField的createSpatialQuery(),该方法负责生成基于geoHash的查询Query，展开看该方法：

public Query createSpatialQuery(QParser parser, SpatialOptions options) {

double [] point = new double[0];

try {

//解析经纬度

point = DistanceUtils.parsePointDouble(null, options.pointStr, 2);

} catch (InvalidGeoException e) {

throw new SolrException(SolrException.ErrorCode.BAD_REQUEST, e);

}

//将经纬度编码成bash32，对如何编码请看本文geohash算法解析篇幅

String geohash = GeoHashUtils.encode(point[0], point[1]);

//TODO: optimize this

return new SolrConstantScoreQuery(new ValueSourceRangeFilter(new GeohashHaversineFunction(getValueSource(options.field, parser),

new LiteralValueSource(geohash), options.radius), “0″, String.valueOf(options.distance), true, true));

}

从源码中可以看到代码作者有标示TODO：optimize this，笔者从源码中看到这块的实现，也觉得确实有疑惑，整个大体实现流程是基于Lucene的Filter的方式来过滤命中docId,但是其过滤的范围让笔者看起来觉得性能会出现问题，可能也是源码中有TODO：optimize this的缘故吧。

接下来继续讲下核心处理流程，Lucene的查询规则是Query->Weight->Scorer,而主要负责查询遍历结果集合的就是Scorer，该例子也不例外，同样是SolrConstantScoreQueryà ConstantWeightà ConstantScorer，通过Query生成Weight，Weight生成Scorer，熟悉Lucene的读者应该很清楚了，这里不再累述，其中ConstantScorer的通过docIdSetIterator遍历获取满足条件的docId。而docIdSetIterator便是前面源码中的ValueSourceRangeFilter，该Filter将会过滤掉不在一个指定球面距离范围内的数据，而ValueSourceRangeFilter并不是实际工作的类，它又将过滤交给了GeohashHaversineFunction，见ValueSourceRangeFilter如下代码：

public DocIdSet getDocIdSet(final Map context, final IndexReader reader) throws IOException {

return new DocIdSet() {

////lowerVal=0,upperVal=distance,includeLower=true,includeupper=true

@Override

public DocIdSetIterator iterator() throws IOException {

////valueSource= GeohashHaversineFunction,也是实际进行DocList过滤的类

return valueSource.getValues(context, reader).getRangeScorer(reader, lowerVal, upperVal, includeLower, includeUpper);

}

};

}

那么继续看GeohashHaversineFunction，首先看其 getRangeScorer()方法，最核心的部分为：

if (includeLower && includeUpper) {

return new ValueSourceScorer(reader, this) {

@Override

public boolean matchesValue(int doc) {

//计算docId对应的经纬度和查询传入的经纬度的距离

float docVal = floatVal(doc);

//如果返回的docVal(目标坐标和查询坐标的球面距离)在给定的distance之内则返回true

//也就是说目标地址为待查询的周边范围内

return docVal >= l && docVal <= u;

}

};

}

所以再看看计算球面距离的GeohashHaversineFunction.floatVal()方法，可以从该方法最终调用的是distance()方法,如下所示：

protected double distance(int doc, DocValues gh1DV, DocValues gh2DV) {

double result = 0;

String h1 = gh1DV.strVal(doc); //docId对应的经纬度的base32编码

String h2 = gh2DV.strVal(doc); //查询的经纬度的base32编码

if (h1 != null && h2 != null && h1.equals(h2) == false){

//TODO: If one of the hashes is a literal value source, seems like we could cache it

//and avoid decoding every time

double[] h1Pair = GeoHashUtils.decode(h1); //base32解码

double[] h2Pair = GeoHashUtils.decode(h2);

//计算2个经度纬度之间的球面距离

result = DistanceUtils.haversine(Math.toRadians(h1Pair[0]), Math.toRadians(h1Pair[1]),

Math.toRadians(h2Pair[0]), Math.toRadians(h2Pair[1]), radius);

} else if (h1 == null || h2 == null){

result = Double.MAX_VALUE;

}

//返回2个经纬度之间球面距离

return result;

}

所以整个查询流程是将索引中的所有docId从第一个docId =0开始,对应的经度纬度和查询经纬度的球面距离是否在查询给定的distance之内，满足着将该docId返回，不满足则过滤。

大家可能看到是所有docId,这也是笔者觉得该过滤范围实现不靠谱的地方，也许是作者说需要进一步优化的地方。大家如果对怎么是所有docId进行过滤有疑惑，可以查看ValueSourceScorer的nextDoc() advance()方法，相信看过之后就明白了。到此Solr基于GeoHash的查询实现介绍完毕了。

同分类推荐文章

等了十年的 Go 链式管道，终于来了：seq 让你像写 Scala 一样写 Go （2026-06-25 18:38:18）
Go 实验特性详解（2026-06-21 10:05:27）
amd64 微架构级别对 Go 程序性能提升多少？（2026-06-21 09:38:49）

查看更多后端文章 →

建议继续学习

几种常见的基于Lucene的开源搜索解决方案对比（累计阅读 6,174）
大型网站的Lucene应用（累计阅读 5,214）
geohash：用字符串实现附近地点搜索（累计阅读 5,141）
【转】基于lucene实现自己的推荐引擎（累计阅读 4,794）
基于Solr的空间搜索(3) （累计阅读 4,252）
关于音乐搜索（累计阅读 3,853）
Solr\Lucene优劣势分析（累计阅读 3,664）
基于Lucene/XML的站内全文检索解决方案：WebLucene （累计阅读 3,444）
SolrQuery挖掘–单维度聚合分析（累计阅读 3,390）
Solr调优参考（累计阅读 3,232）