百度搜索研发部官方博客 -- IT技术博客大学习 -- 共学习共进步！

• 相似度计算常用方法综述

引言相似度计算用于衡量对象之间的相似程度，在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分，对象的特征表示，特征集合之间的相似关系。在信息检索、网页判重、推荐系统等，都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景，受限于数据规模、时空开销等的限制，相似度计算方法的选择又会有所区别和不同。下面章节会针对不同特点的应用，进行一些常用的相似度计算方法进行介绍。 2向量空间模型向量空间模型（Vector space model）是应用最广泛的一个基础相似度计算模型，在该模型中，每个对象映射为一个特征向量: 作为一个应用广泛的模型，向量空间模型在现有的很多应用中仍然起着至关重要的作用，也是很多扩展方法的基础。

• 同义词反馈机制

1. 介绍由于搜索算法本身的局限性，对于用户的语义、意图等理解不够，而基于用户行为的点击调权，作为对传统搜索算法的补充，在搜索中扮演着重要的作用。尽管用户行为已经被证明在搜索中的效果，但是一直只是停留在query-url层面，或者ngram-url层面[1]，没有深入反馈到检索算法中的基础策略，比如：同义词、紧密度、省略等，这些策略影响了url与query之间的关系。本文以对同义词的反馈为例，提出一个通用的基于用户行为的基础策略反馈框架。由于同义词词典与线上应用算法的限制，检索系统中存在部分质量不好、或者本来质量好但是应用时错误降低了权值的同义词。在同义词召回出来结果后，呈现在用户面前，用户的行为数据可以帮助我们识别同义词的好坏。在计算出同义词的好坏后，就可以直接应用于同义词的退场或者调整应用的权值。

• 索引页链接补全机制的一种方法

背景 Spider位于搜索引擎数据流的最上游，负责将互联网上的资源采集到本地，提供给后续检索使用，是搜索引擎的最主要数据来源之一。spider系统的目标就是发现并抓取互联网中一切有价值的网页，为达到这个目标，首先就是发现有价值网页的链接，当前spider有多种链接发现机制来尽量快而全的发现资源链接，本文主要描述其中一种针对特定索引页的链接补全机制，并给出对这种特定类型的索引页面的建议处理规范用于优化收录效果。当前大多数互联网网站以索引页和翻页的形式来组织网站资源，当有新资源增加时，老资源往后推移到翻页系列中。

• JavaScript解析：让搜索引擎看到更真实的网页

长期以来，站长们选择使用JavaScript来实现网页的动态行为，这样做的原因是多种多样的，如加快页面的响应速度、降低网站流量、隐藏链接或者嵌入广告等。由于早期的搜索引擎没有相应的处理能力，导致在索引这类网页上往往出现问题，可能无法收录有价值的资源，也可能出现作弊。引入JavaScript解析的目的，正是为了解决上述两方面的问题，其结果也就是使搜索引擎可以更为清晰的了解用户实际打开该网页时看到的效果。比如有些网站会将用户评论、评分等信息从网页HTML中抽离，利用JavaScript甚至AJAX等方法在页面被打开的时候动态显示出来，早期的搜索引擎此时能处理到的页面内容就是缺失的，由此会进一步影响对该页面索引价值的判断。要引入JavaScript解析，需要考虑本身的设计与实现、解析速度和对系统其它方面影响等因素，本文通过一些典型的案例来分析如何设计并实现一套网页JavaScript解析系统

• 利用HTK工具包快速建立一个语音命令识别系统

摘要体验过百度语音产品的你一定能感受到语音交互的魅力。在这里，我们以一个常用命令（打开、关闭、开始、停止）的语音识别任务为例，介绍一下如何利用HTK快速地建立这样一个语音命令识别系统，让电脑识别出你所说的简单命令。当然，如果要想识别任何其它的词，原理及过程也完全相同。工具包介绍 HTK的全称是”Hidden Markov Model Toolkit”，是英国剑桥大学工程学院开发的隐马尔可夫模型（后面简称为隐马模型）工具包，可以方便有效的建立及操作隐马模型。隐马模型在许多人工智能领域都有着成功的应用，比如语音识别，当前国际上主流的语音识别系统仍是基于隐马模型建立的。HTK的开发也主要是针对语音识别的应用及研究。

• 让搜索跨越语言的鸿沟——谈跨语言信息检索技术

跨语言信息检索，是信息检索领域中的一个研究课题。近10几年来，由于互联网的飞速发展，这方面的研究受到了学术界的广泛重视。将这项技术应用于搜索，可以帮助我们查找到更多的有用信息，例如外语相关页面、多语言页面以及语言无关的资源（如图片）等等。这些信息可以大大丰富搜索的结果，满足用户多样的需求。在跨语言信息检索的研究中，有一些研究成果已经趋于成熟，达到可以应用的状态。事实上，Yahoo和Google在5，6年前就已经开始提供多语言的搜索服务。毫无疑问，在这方面他们已经走在了世界的前列。目前，百度的各项国际化业务正在如火如荼的开展，对跨语言技术来说，正是用武之地。相信不久的将来，它将会在搜索国际化进程中扮演举足轻重的角色。来，就让我们一探究竟吧。

• 语音识别中声学模型得分计算优化方法

语音是人们沟通交流最直接、最自然的交互方式。自计算机问世以来，人们就一直希望可以通过语音实现人和计算机之间的交互，而语音识别技术，目标就是通过把人类的语音中的词汇内容转换为相应的文本，架起了人机交互的桥梁。对于一个语音识别系统，速度和精度是两个核心指标，直接决定着系统是否可用。其中，识别速度的提升意味着可以降低成本，同时提供更多的语音服务，一直是语音识别技术研究的重点方向。在语音识别系统中，声学模型得分的运算量一般会达到整个系统的40%-70%，因此也是识别速度优化的重点模块。本文就来讲讲如何优化声学模型得分计算。基本概念介绍特征向量：语音数据在识别前首先会被分成多帧数据，一般帧长为25毫秒，帧移为10毫秒。每一帧语音数据经过特征提取之后，会生成一帧特征，称之为一个特征向量或特征矢量，其中n为特征向量的维数。

• 浅析点对点(End-to-End)的场景文字识别

随着智能手机的广泛普及和移动互联网的迅速发展，通过手机等移动终端的摄像头获取、检索和分享资讯已经逐步成为一种生活方式。基于摄像头的(Camera-based)的应用更加强调对拍摄场景的理解。通常，在文字和其他物体并存的场景，用户往往首先更关注场景中的文字信息，因而如何能够正确识别场景中的文字，对用户拍摄意图会有更深入的理解。一般意义上，基于图像的文字识别包括基于扫描文字的光学字符识别(Optical Character Recognition, OCR) 和广泛用于网站注册验证的CAPTCHA (Completely Automated Public Turing Test to Tell Computers and Humans Apart,全自动区分计算机和人类的图灵测试)。

• 浅谈网页搜索排序中的投票模型

国选举制度，美国的总统选举是一种“赢者通吃”的方式，每个州根据其人口多少，有几十或几百的“州票”，州里的人对总统候选人进行选举，在某个州获得票最多的那个候选人，获得这个州所有的“州票”，然后统计所有候选人的“州票”多少，获得最多“州票”的候选人获胜。如果放在算法领域，可以看出这里的问题在于，为了统计结果R(最适合的总统人选)，找到了一个特征A(每个民众的投票)，而决定结果R的，却不是特征A，而是由特征A推导出来的特征B(州票)，在特征A向特征B的推导过程中，信息丢失了(每个洲的支持百分比不一样)。

• 流量低峰也烦人-lighttpd耗时长问题追查

如果你用lighttpd1.5(以下lighttpd均指1.5)做静态文件服务器，或者你虽然用lighttpd处理php请求，但是用到$PHYSICAL作为mod_proxy_core的条件，且某个时候你的单机流量很低(几个/s), 或许你也有类似的问题，但是影响程度或许不会引起你的注意！ 1.Lighttpd的mod_proxy_core不建议用$PHYSICAL作为条件； 2.Lighttpd的stat cache机制没有节省任何开销； 3.Lighttpd子线程和主线程通过管道+epoll的通信机制，存在event丢失问题；现象用户反馈凌晨的时候访问百度某页面，某些模块的数据出不来；其它依赖于我们的前端接口的产品线反馈访问时间有时候超过1s；我们自己的QA环境偶尔也会出现请求超过1s的问题；因此我们打开lighttpd的日志的%D配置，打印ms级别的处理时间，发现

• 支持快速迭代的LAMP解决方案 ――贴吧LAMP解决方案

摘要：天下武功，唯快不破，互联网竞争的利器就是快！且听贴吧LAMP解决方案如何全面支持快速迭代。关键词：LAMP，快速迭代领域：架构总概贴吧是功能性产品，唯快不破是永恒的准则，这一特点决定了快速迭代是需要解决的关键性问题。快速迭代，分解开来有如下部分：开发阶段，快速开发；测试阶段，包含了环境快速搭建、自动化测试工具；运维阶段，包含了集群管理技术、自动化运维工具；同时，这三方面的工作需要一个整体性的解决方案衔接起来。早期的贴吧，作为一个高性能社区，功能相对单一，全部采用C语言开发，系统可重用程度低，开发、测试效率低，运维方面的积累也很少。为了提高效率，开始尝试LAMP架构，经过几年的发展，贴吧已全部迁移到了LAMP。随着产品规模急剧膨胀，30+子系统，150+模块，500+机器，10亿+流量，在LAMP架构方面积累了很多经验，逐渐形成了快速迭代的一体化方案。如下图所示：该解决方

• CC-lib无线跨平台web页面自动化生成技术的设计实现

摘要：前端开发通常需要开发多套web页面代码，从而为不同的移动终端浏览器开发不同的web页面，例如低端手机需使用wml，高端手机则支持html和javascript等。本文介绍了一种跨平台web页面自动化生成技术，该技术利用php设计了一个中间层（CC-lib），可以屏蔽底层的web展示语言的差异，程序运行时动态生成各个UI组件的wml/xhtml/html代码，从而可以有效降低前端开发人员的页面开发维护成本。关键词：浏览器兼容，跨平台，无线，web前端，自动化生成，CC-lib 技术领域：无线，web前端一、背景在无线领域，通常要为不同的机型，使用不同的编程语言（wml/xhtml/html）编写网页，往往存在下面几个问题：（1）维护3份代码，开发效率低、维护成本高。（2）应用开发人员需要关注不同平台的语言差异，调试、自测繁琐。（3）业务展现逻辑代码和wml/xhtml/h

• 多核学习在图像分类中的应用

1摘要分类在搜索引擎中的应用非常广泛，这种分类属性可以方便在rank过程中针对不同类别实现不同的策略，来更好满足用户需求。本人接触分类时间并不长，在刚用SVM做分类的时候对一个现象一直比较困惑，看到大家将各种不同类型特征，拼接在一起，组成庞大的高维特征向量，送给SVM，得到想要的分类准确率，一直不明白这些特征中，到底是哪些特征在起作用，哪些特征组合在一起才是最佳效果，也不明白为啥这些特征就能够直接拼在一起，是否有更好的拼接方式？后来了解到核函数以及多核学习的一些思想，临时抱佛脚看了点，对上面的疑问也能够作一定解释，正好拿来和大家一起探讨探讨，也望大家多多指点。本文探讨的问题所列举的实例主要是围绕项目中的图像分类展开，涉及SVM在分类问题中的特征融合问题。扩展开来对其他类型分类问题，理论上也适用。关键词： SVM 特征融合核函数多核学习 2基本概念阐述 SVM：支持向量机，目前在

• 环境为王-论贴吧环境解决方案

摘要本文列举了当前贴吧线下环境在使用过程中遇到的几个典型问题场景，针对这些问题，从如何维护环境稳定性以及如何提供更好的环境更新体验两个维度，给出了对应的解决方案。通过环境稳定性解决方案，降低了人力的投入，保证了环境的最新，减少了人为因素引入问题，通过技术的手段，保证整个过程自动化、可视化。通过更新方案，给予用户更好地更新体验，提升更新效率和速度，降低了执行机与基准环境之间的耦合性。关键字基准环境自动化监控稳定性更新名词解释基准环境：在虚拟机上搭建的一个单机的贴吧全功能环境。该环境包含了贴吧的所有模块，所有模块相关的地址配置（ip、url）均指向本机，是测试开发环境构建的母本。执行机：指rd、qa、fe的开发或者测试机。

• iOS内存暴增问题追查与使用陷阱

iOS平台的内存使用引用计数的机制，并且引入了半自动释放机制；这种使用上的多样性，导致开发者在内存使用上非常容易出现内存泄漏和内存莫名的增长情况；本文会介绍iOS平台的内存使用原则与使用陷阱；深度剖析autorelease机制；低内存报警后的处理流程；并结合自身实例介绍内存暴增的问题追查记录以及相关工具的使用情况； iOS平台内存常见问题作为iOS平台的开发者，是否曾经为内存问题而苦恼过？内存莫名的持续增长，程序莫名的crash，难以发现的内存泄漏，这些都是iOS平台内存相关的常见问题；本文将会详细介绍iOS平台的内存管理机制，autorelease机制和内存的使用陷阱，这些将会解决iOS平台内存上的大部分问题，提高了程序的稳定性；

• 深入PHP使用技巧之变量

众所周知，PHP与其他脚本语言一样，属于弱变量类型的语言。同时PHP本身也是通过C语言来实现。本文主要介绍PHP内部是如何实现弱变量类型的，并且据此分析在PHP开发中需要注意的一些使用技术。其中会重点分析PHP中的copy on write机制和引用相关方面的话题。本章节属于《深入PHP使用技巧》的第一部分。如何实现弱变量在了解PHP实现弱变量类型之前，可以先思考下：如何通过C/C++来实现弱变量类型的效果呢？

• 基于主特征空间相似度计算的切分算法及切分框架

摘要: 本文从切分的需求、作用、难点等方面谈起，介绍分析了目前主流的各种切分方法以及其优缺点，并介绍了一个新型的无监督切分方法，并在此基础上对切分在工程需求上进行了相应的分析和讨论，在最后在此算法基础上给出一个融合各种优点的切分框架。关键词: 中文分词， Query Segmentation，无监督技术领域: 自然语言处理我们为什么要切分？说到切分(segmentation)，大多数人最容易想到的就是中文分词。作为没有天然空格区分的语言，切词可以帮助计算机去索引文章，从而便于信息检索等方面。该部分主要用到了分词的一个方面：降低搜索引擎的性能消耗。我们常用的汉字有5000多个，常用词组是几十万个。在倒排索引中，如果用每个字做索引的话，那么会造成每个字对应的拉链非常长。所以我们一般会用词组来代替单个汉字建立索引。除此，切词更重要的一个功能是帮助计算机理解文字，在这个层次上，切词是不分

• 搜索引擎中的粒度问题

一.前言传统的搜索引擎的定义，是指一种对于指定的查询（Query），能够返回与之相关的文档集合（Documents）的系统。而百度将这个定义更加丰富化，即搜索引擎能够帮助人们更方便的找到所求。这里的“所求”，比“文档”更加宽泛和丰富，比如一个关于天气的查询，直接返回一个天气预报的窗口，而非一篇关于天气的文档；再如一个关于小游戏的查询，直接返回这个小游戏的Flash页面而非简单的介绍性的文字。百度对Query深刻的理解，源于自然语言处理技术在其中发挥的巨大作用。对搜索引擎而言，文本切分是最基础也是最重要的自然语言问题之一。今天，我们就来谈谈文本切分粒度与搜索引擎的关系。本文后续章节组织如下：第二节介绍什么是文本的粒度，第三节讲述搜索引擎的基本原理与文本切分粒度的关系，第四节深入探讨粒度的属性与检索相关性计算，第五节小结。二.文本粒度什么是文本的粒度？我们用什么来衡量文本粒度？在回

• 基站轨迹定位算法

前言我在哪？是LBS领域首先要解决的问题。因为技术限制，传统的GPS卫星定位只有室外的空旷地区才能够准确定位，对于室内环境来说，GPS定位往往会因“搜星”失败而无法定位。正因为GPS定位的天然缺陷，基于手机基站的定位技术正在蓬勃发展。然而因为基站的覆盖范围大，很难以取得高精度的效果，本文利用基站轨迹，提出了一个提高基站定位精度的方法。关键字：基站定位，轨迹定位，Viterbi算法绪论对于单基站定位，如果仅根据用户当前的基站ID进行定位，精度必定有限。用户可能出现在基站覆盖范围内的任意一个地方，基站的覆盖范围越大，推测出来的用户位置就越不准。如果我们还知道用户之前一段时间内经过的基站ID序列（称为基站轨迹），此时即可大致判定用户行动轨迹，可借此提高精度。例举一个简单例子: 如上图所示，假设用户在一瞬间，基站ID从A切换到了B，此时用户属于B基站，单单从B这一个基站考虑的话，很

• Paxos小议

问题最近我们在做一个项目的时候有这样一个需求：我们有多台服务器资源，希望彼此协作完成一项工作。这项工作可以被划分为N个小的模块，但由于这项工作会依赖于持续不断的输入(在线业务)，因此我们无法使用人工指定的方式将此工作分发到不同服务器进行。目前我们想到一个方法，将这项工作划分出的小模块放到一个稳定可靠的地方，例如mola存储系统，然后每台服务器去存储系统上取得一定数量的模块进行工作，完成后再将处理的结果输...