您现在的位置:首页
--> 标点符
随着互联网的兴起及发展,人们获取信息的途径由传统方式逐渐被网络替代。 起初人们主要通过浏览网页来获取所需信息, 但随着Web不断庞大用这种方式来寻找自己所需的信息变得越来越困难。现在大多数的人很大程度上依赖于搜索引擎来帮助自己获取有用信息,因此搜索引擎技术作为最典型的Web信息获取技术 其发展直接影响人们获取信息的质量。 自从1994 年4 月世界上第一个Web 检索工具Web Crawler 问世以来, 目前较流行的搜索引擎已有...
页面浏览量 PV(page view),即页面浏览数,或点击量,通常是衡量一个频道或网站甚至一个网页的主要指标。 用户刷新页面不记录到页面浏览量中。 独立访客数 UV(unique visitor):独立访客,将每台独立上网电脑(以cookie为依据)视为一位访客,一天之内(00:00-24:00),访问您网站的访客数量。一天之内相同cookie的访问只被计算1次。 平均访问页数 这是一个平均数,即在一定时间内全部页面浏览量与所有独立访客数相除的结果,即一...
随着网络信息的飞速发展,科技新闻这一重要科技资源形式发挥着越来越重要的作用。如何对海量的科技新闻进行聚合已成为新兴的热点话题。文章介绍了新闻聚合的产生,并将现在广泛使用的新闻聚合模式归纳为:人工编辑组织、Digg、Google news、Techmeme四种模式;选取其中最具代表意义的Techmeme模式和Google news模式进行了详细论述,运用SWOT分析方法,从二者内部的优势、劣势、外部的机会和威胁四个方面进行分析,并在此基础上提出...
Stack Overflow是我最喜欢的问答网站,没有之一,原因是它能解决我学习程序过程中遇到的大多数问题,而 Quora 和 知乎更多的是拓展我的视野。(不要和我提百度知道,百度知道是小学生用来做暑假作业的!) 目前Stack Overflow每月不重复的访问用户超过1600万;每月网页浏览量(PV)增长了近6倍,达到9500万。已经发展壮大成了 Stack Exchange Network,而这个网络包括Stack Overflow、Server Fault和Super User等,旗下总共拥有43...
• 一淘网的系统架构
一淘网是淘宝推出的一款购物搜索引擎,目前主要是由四部分组成:购物相关资讯的文本搜索-导购、基于opensearch的全网商品搜索-商品、购物社区-淘吧、问答搜索、全网搜索(目前使用的是其他搜索引擎公司的系统、自己公司的也有,但不是默认项)。 导购搜索的目的是要将购前分流至各大垂直网站查找资讯的流量聚合,并且从百度和Google手中把搜索购物资讯的流量抢过来。但局限是内容可读性不如垂直网站,覆盖率不如全网搜索引擎。即使...
网络爬虫(web crawler)又称为网络蜘蛛(web spider)是一段计算机程序,它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。一般的爬虫从一部分start url开始,按照一定的策略开始爬取,爬取到的新的url在放入到爬取队列之中,然后进行新一轮的爬取,直到抓取完毕为止。 我们看一下crawler一般会遇到什么样的问题吧: 抓取的网页量很大 网页更新量也很大,一般的网站,比如新闻,电子商务网...
越来越多的产品和服务被部署在网络上,如何大规模的衡量用户体验成为一个巨大的机遇和挑战,怎样设置以用户为中心的指标来衡量网络应用关键目标的转化过程,推动产品决策成为一个可以思考的点。在这篇文章中,Google 给我们带来了目前正在使用的,以用户为中心度量的HEART体系,以及把产品目标与创建指标体系相互关联的过程。本文也包含了应用HEART指标,同时从数据驱动以及从用户为中心的角度出发,帮助产品团队决策的实例。...
• 防采集系统的设计
网络上越来越多的站长在使用采集系统进行网站采集。如何应对这样的采集成为一个很棘手的问题。先前写过一篇怎样防止网站被采集的的文章,但是中间提到的方法感觉不是非常的适用。 正常的搜索引擎抓取页面可以使用robots.txt来进行屏蔽,比如万恶的雅虎,流量和不带过来,确是爬的最勤快的,大量的暂用服务器资源。 防采集主要防止的是那些除搜索引擎外的抓取行为,即除搜索引擎外的非人为访问。
Google的用户体验评价方案只是提供了简单的分析思路,但是没有到具体的点,这篇文章可以弥补这个缺憾。 Facebook 的产品设计五维 情感 精准定位――设计对受众定位清晰,符合该设计目标用户群的使用体验。 亲和力――所有交互元素的设计上,用户对信息沟通顺畅,感觉似有人一般的亲和感。
最近在学Python,同时也在学如何使用python抓取数据,于是就被我发现了这个非常受欢迎的Python抓取框架Scrapy,下面一起学习下Scrapy的架构,便于更好的使用这个工具。 一、概述 下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每个组件的作用及数据的处理过程。 二、组件 1、Scrapy Engine(Scrapy引擎) Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务...
SmartSniff是一个网络监测工具,它允许您捕获通过你的网卡的TCP / IP数据包,并查看捕获到的客户端和服务器之间的通信数据。您可以在ASCII模式下,TCP / IP会话(基于文本的协议,如HTTP,SMTP,POP3和FTP)或十六进制转储。 (非文本的基础协议,如DNS) SmartSniff提供3种捕获TCP / IP数据包的方法: 1.原始套接字:允许你在未安装任何捕捉驱动程序的情况下捕获 TCP/IP 数据包。这种方法有一定的局限性和问题。 2.WinPcap捕获驱...
在讨论获取客户端IP 地址前,我们首先下弄明白的是以下三个的具体含义:REMOTE_ADDR,HTTP_CLIENT_IP,HTTP_X_FORWARDED_FOR REMOTE_ADDR 是你的客户端跟你的服务器“握手”时候的IP。如果使用了“匿名代理”,REMOTE_ADDR将显示代理服务器的IP。 HTTP_CLIENT_IP 是代理服务器发送的HTTP头。如果是“超级匿名代理”,则返回none值。同样,REMOTE_ADDR也会被替换为这个代理服务器的IP。
• 流量统计方法分类
大部分的日志收集JS请求都是使用Image对象来请求的(google,baidu,Omniture等)。目前有两种方式来使用JS的Image对象,一个是document.write,这种方式将这个Image对象挂到DOM树上,这种情况下会影响整个页面的渲染,Window.Onload函数就是在所有的DOM树都渲染完成后才执行的。第二种方式是直接new一个JS的Image对象,这个JS变量就是一个独立的对象,在某些情况下会被JS的垃圾回收机制回收掉,这个概率很小,也可以采用方法来避免。
微格式(Microformat),是建立在已有的、被广泛采用的标准基础之上的一组简单的、开放的数据格式。是把语义嵌入到HTML以便有助于分离式开发而制定的一些简单约定,是兼顾人机可读性设计的数据表达方式,对Web网页进行语义注解的方法。这种方法依托于标准的Web页面写作技术,例如,XHTML,这样引入语义信息对浏览器等所有现存的Web技术冲击最小。采用Microformat的 Web页面,在XHTML文档中给一些标签(Tag)增加一些属性(attribut...
在Google网站管理员后台,发现了偶的网站有大量的404页面存在。发现问题原来处在了WordPress自带的评论翻页上。具体出错情况如下。 仔细检查了一遍,发现问题出在了评论模块上,仔细检查了模板的代码,发现不是模板问题。网上查询了下,发现还是由很多人与我遇到相同的问题。下面是我梳理的解决方案,期望对那些和我有同样问题的朋友有所帮助。 解决方案一: 修改WordPress后台设置,将评论翻页功能去掉,此方案有一点不好就是如...
我知道大多数站长,会使用不带关键词的site语法来进行收录量观察。这是一种方法,但很不准确。site语法设定的初衷,其实是期望用户可以设定约束搜索范围,实现更加精准的搜索。这同intitle,inurl,本质上是相同的。而在这些高级语法下的结果数,和常规搜索一样,都是“估值”,而非精确值。因此,很有可能site下的“结果数”减少了,实际被索引数却可能增加了。 更加精确的方法是什么呢? 1,对来自搜索引擎的流量进行监控。这是...
推广目标: 通过互联网传播的诸多优势,宣传红孩子的产品,传导红孩子的服务理念和企业价值观,维持老顾客的品牌忠诚度及开发更多的新顾客。在第四个月的推广宣传后,武汉地区的IP须增加2000IP。利用16到26个月的时间,使红孩子网站成为武汉地区家庭网上购物的首选站。 推广理念: 结合网络营销的4CS理论以“准”、“快”为推广理念,抓住一切可利用的可行途径进行推广。 1、寻找准确访问者,一切从访问者出发,致力于将每个访问者...
• 微博的传播机制
2009年,微博客受到了人们的极大关注。简单快捷的操作方式、随时随地发布信息的互动形式,成为互联网的一个亮点。令球语言‘监测机构(Global Language Monitor)公布的数据显示,微博客“Twitter”成为2009年最热门的英语单词。Twitter热浪也重新燃起了国内微博客的激情,一大批新的微博客网站诞生,而新浪微博则将中国网民带进了“围脖时代”。微博客已经成为当下最热门的互联网服务,彰显着互联网新的篇章―― 微博客时代的到来。...
IMDB网站是目前互联网上最为权威、系统、全面的电影资料网站,里面包括了几乎所有的电影,以及1982 年以后的电视剧集。IMDB的资料中包括了影片的众多信息,演员,片长,内容介绍,分级 ,评论等,就个人买碟而言,很大程度上也是参考IMDB的得分。 它所特有的电影评分系统深受影迷的欢迎,注册的用户可以给任何一部影片打分并加以评述,而网站又会根据影片所得平均分、选票的数目等计算得出影片的加权平均分并以此进行TOP250(最佳2...
dfopen():discuz封装的fsockopen()
近3天十大热文
- [55] Oracle MTS模式下 进程地址与会话信
- [55] IOS安全–浅谈关于IOS加固的几种方法
- [54] 如何拿下简短的域名
- [53] android 开发入门
- [52] Go Reflect 性能
- [51] 图书馆的世界纪录
- [49] 读书笔记-壹百度:百度十年千倍的29条法则
- [47] 【社会化设计】自我(self)部分――欢迎区
- [38] 程序员技术练级攻略
- [33] 视觉调整-设计师 vs. 逻辑
赞助商广告