您现在的位置:首页
--> 百度搜索研发部官方博客
假如你需要存储复杂的数据则可以使用Web Database,可以像客户端程序一样使用SQL(不过Web Database标准当前正陷于僵局之中,而且目前已经实现的浏览器很有限);假如你需要存储的只是简单的用key/value对即可解决的数据则可以使用Web Storage。 本文主要从各个方面介绍一下Web Storage的具体情况。
PHP内核介绍及扩展开发指南―高级主题
类和对象(TODO) 附录A. Extension的编译 Extension的编译是比较简单的,下面是个示例Makefile: # 扩展搜索目录,模块被放到这里才能被找到和加载 # 可以从php.ini中的extension_dir命令获取该值 PHP_EXT_HOME=/home/wiki/php5/lib/php/extensions/ # PHP源代码路径 PHP_SRC=/home/wiki/wikienv/install/php-5.2.3 INCLUDE=-I$(PHP_SRC) -I$(PHP_SRC)/main -I$(PHP_SRC)/TSRM -I$(PHP_SRC)/Zend CC=gcc all: first_module.s...
本文介绍一种生成新闻事件脉络的方法,该方法已经应用于百度新闻的新闻事件专题页中。对于一些延续时间较长的新闻事件,我们希望通过机器挖掘的手段,抽取出事件发展的重要阶段,称为事件的脉络信息;使得用户能够通过脉络信息,直观的了解该事件发展的过程。比如:在中国协助智利解救被困矿工一事的专题页中,展现如下的事件回顾信息,能够帮助用户迅速的领略该事件的来龙去脉。
• 图片服务器博客
09年初的时候, 百度阿拉丁计划展现更多的图片. 这些图片一般较小, 适合在搜索页面中展现. 这些图片一般来自百度的合作方, 合作方提供的图片是多种多样的, 格式大小各不相同. 为了能让这些图片在百度页面中合适的展现,必须对图片做一定的裁剪.考虑到以上种种问题, 直接使用合作方的图片是不行的, 必须做一个专用的图片服务, 来满足以上种种需求.于是,一个图片服务器产品应运而生。
• 视频站收录浅析
随着网速的不断提高,人们通过互联网观看视频的需求正越来越大。互联网上的视频站和视频资源也在不断增加,人们经常需要借助搜索引擎来查找自己需要的视频。对视频资源的索引也相应地成为了搜索引擎的一个基本功能。而要提供对视频资源的良好索引需要首先做到对视频站点的足够好的收录。本文将对视频站的收录进行简单探讨。
分布式哈希和一致性哈希是分布式存储和p2p网络中说的比较多的两个概念了。介绍的论文很多,这里做一个入门性质的介绍。
数据的存储方式对应用程序的整体性能有着极大的影响。对数据的存取,是顺利读写还是随机读写?将数据放磁盘上还将数据放flash卡上?多线程读写对性能影响?面对着多种数据存储方式,我们如何选择?本文给大家提供了一份不同存储模式下的性能测试数据,方便大家在今后的程序开发过程中可以利用这份数据选择合适的数据存储模式。
• 超级负载均衡
超级负载均衡旨在为解决服务不断扩展、机器不断增多、机器性能差异等问题,以增强系统的稳定性,自动分配请求压力。算法实现了多个模型和均衡策略,能通过配置实现随机、轮询、一致hash等。同时也能实现跨机房的相关分配。现已经在多个系统中使用。 TAG 负载均衡内容 现有系统中存在的问题: 1. 慢连接、瞬时访问慢。场景一:如果后端新增加机器,cache命中率低,因此响应速度慢,但是能连接上且不超时。如果ui持续访...
1 背景当前,使用业务和逻辑隔离的部署已经成为主流,但是对具体存储部署和接口的依赖,一直成为存储对业务逻辑完全透明的一个障碍。为达到达到业务逻辑不必真正关心具体的存储逻辑,方便快速开发,便于日常维护,简化迁移等目的。对数据存储需要有一下的问题需要解决: 1. 抽象数据模型,统一数据访问接口,屏蔽业务层对数据层的逻辑依赖。同时提高业务的可维护性。 2. 解决当机房内的分布式数据相关问题,屏蔽业务层对数...
我们可以根据直觉和经验,通过试错的办法,把这两个因素结合起来。但更好的办法是我们能找到一个明确的依据,最好能跟数学这样坚实的学科联系起来。说起来,依据朴素的经验,人类在古代就能建造出高楼;但要建造出高达数百米的 摩天大厦,如果没有建筑力学、材料力学这样坚实的学科作为后盾,则是非常非常困难的。同理,依据朴素的经验构建的搜索引擎算法,用来处理上万的网页集合应该是没问题的;但要检索上亿的网页,则需要更为牢固的理论基础。
• 日志分析方法概述
日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器――apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。在Web日志中,每条日志通常代表着用户的一次访问行为,例如下面就是一...
1. Hellow hadoop~~! Hadoop(某人儿子的一只虚拟大象的名字)是一个复杂到极致,又简单到极致的东西。说它复杂,是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成,你运行的每一个任务都要在这些计算机上做任务的分发,执行中间数据排序以及最后的汇总,期间还包含节点发现,任务的重试,故障节点替换等等等等的维护以及异常情况处理。谁叫hadoop集群往往都是由一些平民计算机组成,没事儿罢个工什么的,...
互联网的迅速发展,海量Web数据的扑面而来,给搜索引擎技术带来了严峻的挑战,但同时也带来了新的机遇。从网页抓取的角度来看,同一站点往往包含质量相似的资源,对一个优质网站进行爬取,往往可以找到更多的优质资源。因此,我们希望对网站的质量进行评级,来反映资源的质量水平,从而影响spider的调度和收录。在以往的实践中,大体思路是根据人工调研出的经验构造出规则和阈值。发现问题后逐个打补丁、调阈值,来适应变化。...
随着互联网视频越来越多,人们迫切希望能够快速地从众多的视频中精准定位到一些高质量的视频。视频清晰度是评价视频质量的一个重要指标,特别是对于影视剧和动漫类视频来说,高清晰的视频能大大提升用户的体验。所以如何判断视频清晰度,识别出高清晰的视频对于用户和搜索引擎来说是非常有价值的。 和大多数评价机制一样,视频清晰度分为相对清晰度和绝对清晰度。相对清晰度可以理解为视频之间的清晰度排序,而绝...
在某产品线的图片服务器,存放了亿级别的图片文件,每个文件的大小在0.5k-100k之间,其中1K以下的文件数量在50%左右,1-4K文件数量在40%左右,4K以上10%,大量的文件存储对文件系统的性能要求非常高,特对目前业界常用系统性能在图片服务的表现进行调研。 因线上flash卡故障率非常高,所以在寻找替代方案,磁盘是否可以满足线上系统需求?是否满足今后可扩展性(容量、文件数量)?是否可以更好的处理数据同步使用...
一、什么是需求满足 1.1 什么是需求满足 用户来搜索“章鱼 保罗”,就文本相关性而言,搜索引擎只要返回和“章鱼 保罗”内容相关的结果就可以了,这样用户是否满意呢? 用户甲:听说章鱼帝挂了,来看看最新结果,怎么全是8月份的,往后翻页中… 用户乙:今天同事们在讨论章鱼哥挂了,章鱼哥是啥?我又out了,来搜索一下章鱼帝生平事迹是啥,怎么全是最新的结果,没有章鱼哥的介绍啊,变换个query看看 用户丙:我是...
简要介绍一些Zend引擎的内部机制,这些知识和Extensions密切相关,同时也可以帮助我们写出更加高效的PHP代码。
Extensions 的编写理解了这些运行机制以后,本章着手介绍Extensions 的编写,但凡写程序的人都知道hello world,那好,就从hello world开始。
近3天十大热文
- [70] Twitter/微博客的学习摘要
- [65] find命令的一点注意事项
- [64] 如何拿下简短的域名
- [64] IOS安全–浅谈关于IOS加固的几种方法
- [63] android 开发入门
- [62] 流程管理与用户研究
- [62] Go Reflect 性能
- [60] Oracle MTS模式下 进程地址与会话信
- [59] 图书馆的世界纪录
- [58] 读书笔记-壹百度:百度十年千倍的29条法则
赞助商广告