您现在的位置:首页
--> 百度搜索研发部官方博客
摘要:两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。
前端图片优化介绍随着前端页面越来越复杂,尤其是一些社区型的页面中,图片成了页面中不可或缺的资源,并且随着产品功能的叠加图片大小越来越多。以下是几个网站的图片所占的比重。 由于图片是二进制文件,并不能像js、css、html那些源代码文件一样可以通过gzip压缩大大减小文件的大小。所以图片优化主要是选择合适的图片格式,在不降低图片质量的情况下去掉图片里的元数据信息。常用的一些优化方案目前图片优化使用比较多的主...
此次的调研的重点是针对一个Android应用的基础需求,用phonegap与Java实现的应用在性能及开发成本等方面的对比。 开发一个应用的最基本需求应该是浏览性需求,而在Android开发中ListView比较常用的控件,广泛被用于数据列表的展现上,而且也比较灵活。所以本次选择用phonegap和Java各自实现一个ListView的内容展现功能的应用;同时引入另外一个常用组件GridView来实现图片浏览的功能应用。 Delicious书...
是不是见到google,facebook等大型专业网站的拥有不同的语言站群,可以不同语言间切换很给力?而我们只能羡慕嫉妒恨呢?今天要介绍的就是如何识别不同国家,只需要简单几步,就能识别出来自不同国家的请求,使你的web应用更有国际范。国家识别主要用到的是http header中的host,Accept-Language,cookie以及请求的url,ip等。下面先温习下http header的基础知识。 1 HTTP Header头格式在WEB开发中,无论是前端或后端都会发送请...
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些应用中使用,因此需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。Zookeeper的目的就在于此。本文简单分...
• 地图检索
前言:半年前,和师弟在一起吃饭时,他忽然抬头,很好奇地问我:“为什么有了百度的大检索,百度地图还要自己做检索呢?”这个问题也一直伴随着我,后来有幸转入检索方向,不断摸索,也才有了这篇文章。正文:地图检索,顾名思义,是在地图里的检索。它与大检索大同小异,虽然在切词粒度、专名识别、拉链归并和rank等很多细节上与大检索有一定差异,然而真正让他与众不同、独具风采的,是地图领域所特有的空间位置信息。在地图...
这是一个关于C\C++程序员的一个小故事,关于C++11――刚刚通过的新标准的一个小故事… 请不要误会,题目中所提及的“优化”并不是提升程序的性能――Lambda表达式干不了这个。从本质上来说,它只是一种“语法糖”而已。不使用这种表达式,我们照样可以写出满足需求的程序。正如放弃C而使用汇编,或者放弃汇编而使用机器语言一样,你能控制的范围就在那里,不增不减。但如果有得选择,我相信大部分人会选择汇编而非机器语言,选择...
本文将分享如何用 JS 写出一个 3D 赛车,我之前曾在技术交流会上也讲过一次(这里是当时用的 PPT),后来有同学反馈说讲得太深奥没听懂。其实 PPT 里说的更多的是三维图形的基础知识,实现原理体现的稍微少一些,那么本文将着重从实现原理这块做一些补充。
• JS 3D 模型
这是一个简单的 JS 3D 模型,能跑在包括 IE6 的所有浏览器上,结合一下 tween 缓动算法,理论上已经可以完美模拟像 banner 的各种变换效果了。介绍一下实现细节,矢量绘图仍然用的是 Raphael 库,Raphael 我在《如何用 JS 实现 3D 赛车效果》这篇文章里有过介绍。此外,我参考了大量关于三维透视的文章,在下面的一...
适应读者 FE研发工程师对fiddler有基本了解的的同学对web性能优化感兴趣的同学本文不会讲太多fiddler基本概念,基本用法,以及安装步骤,所以希望知道以上知识的同学,请在fiddler的官方网站上去了解。什么是fiddler 为了开一个头,还是先简单介绍下fiddler: Fiddler是一个web调试代理。它能够记录所有客户端和服务器间的http请求,允许你监视,设置断点,甚至修改输入输出数据。
作为一门动态语言,php是如何实现的,其底层机制如何,具有什么样的特点,本文深入浅出介绍了包括php设计理念、整体结构、核心数据结构和变量在内的相关底层知识,对我们更好的开发php程序,优化性能等有一定的指导意义。
浏览器与服务器端的即时通信技术解决了在线聊天等产品中涉及到的复杂网络环境下的问题;采用多tab通信技术来处理现代浏览器的跨页面通信,分析特定疑难问题的技术解决方案。
搜索引擎每天处理着数以亿计的查询请求,每个查询请求都代表了一个用户对于某种资源的特定需求。多数时候,通过查询返回的网页结果,这些需求被满足了,我们可以认为结果中的某些页面对特定用户的特定需求产生了价值。那么对于搜索引擎而言,页面的价值是指什么,我们为什么要研究页面价值,技术上怎样判断页面的价值呢?本文将逐一回答这些问题。
地图需求的概念、满足方式与需求识别的未来展望。
目前,开放成为互联网一大主题,只有开放资源才能求得各方共赢。百度公司在2010年百度世界大会上正式推出了代表开放的两大平台,分别是搜索数据开放平台和应用开放平台,百度公司所倡导的框计算就此体现出了真正的实际应用价值。作为其中数据开放平台,开放了多个类目的数据引入渠道,为众多优质网站提供了更加便捷的数据接入和展示渠道,获得到了众多大小网站的欢迎和支持,同时也让广大网民能够获取到更加精准和优质的信息
• 需求满足综述
关于需求满足的概念、实施以及展望综述。
在2010年亚运会期间,百度框计算携手网易,提供了实时的赛事概况、直播、赛程进展、奖牌榜、比赛项目进程及直播等等一系列的服务,取得了重大突破。数据显示,亚运会的15天时间,通过百度框计算进行亚运相关检索的数量达到了4000万次,较上届2006年的多哈亚运会15天仅有74万的检索量相比,今年的网页检索量增长了54倍之多,可见框计算的威力之大!
一年多来,百度开放平台已经和400多家合作伙伴实现了合作,覆盖了人们出行、娱乐、商务、工作等方方面面。面对每天超过一亿次的海量搜索请求,如何精确地理解用户需求,将最优质恰当的资源用最优的样式展现给用户,这都需要一个优秀的检索架构来支撑。
在信息高速增长的时代,生活变得越来越简单。随便百度一下,都会有很多的结果。现在让我们困惑的不再是没有选择,而是在浩瀚的信息世界里茫然不知所措。如何能更准确更迅速的找到想要的答案,已经变得非常的重要和急迫。这个时候,如果有一个好的分类和统计信息摆在面前,相信很多人都会笑的乐开怀。因此,这里介绍一个简单的分类系统。
框计算垂直搜索的索引的设计考虑因素与相应构建流程
近3天十大热文
- [70] Twitter/微博客的学习摘要
- [65] find命令的一点注意事项
- [64] IOS安全–浅谈关于IOS加固的几种方法
- [64] 如何拿下简短的域名
- [63] android 开发入门
- [62] 流程管理与用户研究
- [62] Go Reflect 性能
- [60] Oracle MTS模式下 进程地址与会话信
- [59] 图书馆的世界纪录
- [58] 读书笔记-壹百度:百度十年千倍的29条法则
赞助商广告