IT技术博客大学习 共学习 共进步

技术文章

精选技术长文、实践记录与系统化阅读

技术文章精选

低噪声、高可扫读;标题、摘要、来源、标签一目了然。

最新文章

采集自各技术站点的近期文章。

IT 发现/ 2012-11-27 13:50:57 / 累计浏览 1,525

Windows tasklist命令使用说明

windows xp的任务管理器,大家一定不会陌生。通过“ctrl+alt +del”组合键,选择“任务管理器”就可以查看到本机完整的进程列表,而且可以通过手工定制进程列表的方式获的更多的进程信息,如会话ID、用户名等,但遗憾的是,我们查看不到这些进程到底提供了哪些系统服务。在Windows XP中新增了一个命令行工具“tasklist.exe”能实现上面的功能。

IT 系统运维/ 2012-11-27 13:47:48 / 累计浏览 2,885

用Bloom Filter的方式统计网络流量

背景: 我现在在一个网站工作,每天都有很多网络爬虫和恶意攻击。我想根据http访问日志统计一下每个IP每天的访问次数,然后大于1万的都认为是机器人。现在寻求一个高效且实时的算法解决这个问题。 最简单的做法,就是用一个map来记录所有IP的访问次数。那么这可能会需要几百兆的内存。有一个更好的办法,可以在O(1)的空间复杂度中解决这个问题。

IT 算法/ 2012-11-27 13:47:09 / 累计浏览 2,863

基数估计算法概览

基数估计算法使用很少的资源给出数据集基数的一个良好估计,一般只要使用少于1k的空间存储状态。这个方法和数据本身的特征无关,而且可以高效的进行分布式并行计算。估计结果可以用于很多方面,例如流量监控(多少不同IP访问过一个服务器)以及数据库查询优化(例如我们是否需要排序和合并,或者是否需要构建哈希表)。

IT 安全/ 2012-11-27 13:44:15 / 累计浏览 5,786

国内团购网前端严重安全漏洞– 以满座网为案例分析

人们口中的所谓的“web2.0”大行其道的今天,前端之中到处遍布着 javascript,ajax,json,xml,而人们似乎不怎么关注这类的安全问题。早在6、7年之前,各大网站编程语言之中就明确说明:前端不信任后端,后端不信任前端。一般来说,安全费用要占到一个软件总开发费用的10%左右。而现在,人们似乎已经忘记了。。。因为事关重大,我就只拿出一个实例,希望人们减少诸如此类的错误。

IT JavaScript/ 2012-11-27 13:40:50 / 累计浏览 3,407

jQuery 教程的一点总结

好像各行各业都是,整个中国都特别的浮躁,大家都特别的急功近利。然、每个人心中都有一个江湖。写代码就像练武功,古代的那些武者,三十年磨一剑。对于新手,我要说的就是,低头做事,抬头看路,只问耕耘、不问收获,踏踏实实做人、做事,三年之后,武功必成。如果你勤勤恳恳努力三年,背会jQuery绝大多数函数,理解方法,熟记 jQuery 源代码设计思路,想进 腾讯,百度这种级别公司是相当容易的。

IT 源码分析/ 2012-11-27 13:37:30 / 累计浏览 2,486

HBase Block Cache实现机制分析

本文结合HBase 0.94.1版本源码,对HBase的Block Cache实现机制进行分析,总结学习其Cache设计的核心思想。 1. 概述 HBase上Regionserver的内存分为两个部分,一部分作为Memstore,主要用来写;另外一部分作为BlockCache,主要用于读。 写请求会先写入Memstore,Regionserver会给每个region提供一个Memstore,当Memstore满64MB以后,会启动 flush刷新到磁盘。当Memstore的总大小超过限制时(heapsize * hbase.regionserver.global.memstore.upperLimit * 0.9),会强行启动flush进程,从最大的Memstore开始flush直到低于限制。

IT 系统运维/ 2012-11-27 13:36:42 / 累计浏览 3,727

HBase如何合理设置客户端Write Buffer

HBase客户端API提供了Write Buffer的方式,即批量提交一批Put对象到HBase服务端。本文将结合HBase相关源码,对其进行深入介绍,分析如何在实际项目中合理设置和使用它。 什么时候需要Write Buffer? 默认情况下,一次Put操作即要与Region Server执行一次RPC操作,其执行过程可以被拆分为以下三个部分: T1:RTT(Round-Trip Time),即网络往返时延,它指从客户端发送数据开始,到客户端收到来自服务端的确认,总共经历的时延,不包括数据传输的时间; T2:数据传输时间,即Put所操作的数据在客户端与服务端之间传输所消耗的时间开销,当数据量大的时候,T2的开销不容忽略; T3:服务端处理时间,对于Put操作,即写入WAL日志(如果设置了WAL标识为true)、更新MemStore等。

IT 系统架构/ 2012-11-27 13:35:46 / 累计浏览 3,407

个性化离线实时分析系统pora

伴随着市场和技术的发展,个性化已经成为淘宝搜索的一个重要目标。简单来说,个性化就是让每个用户在使用淘宝搜索时都能够获取自己最想要的结果,而不再是千篇一律的展示。实现个性化最直接的手段就是通过分析用户的历史行为日志,为用户打上不同的标签,在搜索中根据这些标签来展示最贴近的结果。

IT 网络系统/ 2012-11-27 13:35:17 / 累计浏览 8,648

从谷歌宕机事件认识互联网工作原理

今天,谷歌的服务经历了短暂的宕机事件,持续大概27分钟。此次事件的原因深究起来需要进入互联网络那深邃的、黑暗的角落。我是CloudFlare公司的一名网络工程师,在帮助谷歌从此次宕机中恢复回来提供了一臂之力。下面就是事情发生的过程。

IT MySQL/ 2012-11-27 13:33:23 / 累计浏览 5,746

利用MySQL触发器高性能造数据

MySQL 触发器功能比较简单,大部分只用来简单的更新第三方表,今天我来演示下MySQL触发器在造数据方面的功效。

IT 设计思想/ 2012-11-27 13:29:37 / 累计浏览 1,827

产品的信任感

作为产品设计而言,如何通过设计去表达这种信任感,去向用户传递“我是真诚的”,我是“可被信赖的”着实是一门很重要的学问。在快捷酒店管家的产品发展过程中,有几次我们走了弯路,最终才在产品设计的信任感上略有小成,记录一下,算是反思。

IT Linux/ 2012-11-26 14:24:59 / 累计浏览 8,171

你可能不知道的Shell

分享一些可能你不知道的shell用法和脚本,简单&强大!在阅读以下部分前,强烈建议读者打开一个shell实验,这些都不是shell教科书里的大路货哦:)

IT 发现/ 2012-11-26 13:51:37 / 累计浏览 2,344

那些害人的编码“神谕”

同其它领域一样,计算机科学和工程领域也是群星璀璨,有些耀眼的星光甚至刺得我们无法直视,只能匍匐在地上聆听神谕。也正如其它领域一样,虽然大家听到的是同样的话,却有各式各样不同的理解。我这里想讲的,就是我观察到的不同理解引发的现象。

IT JavaScript/ 2012-11-26 13:49:17 / 累计浏览 2,629

为什么通过前端 .js 记用户日志会丢数据

后端的思维是每发生一次事件就打一条日志, 所以极难发生日志丢失的问题. 而前端不能每发生一次事件就向服务器发请求打一次日志, 这样会带来很大的网络开销并拖慢用户的浏览器, 所以前端都是把要纪录的行为在用户端先缓存, 等积累够若干条或过了若干秒后才向服务器汇总上报, 如果在这个上报条件触发前浏览器崩溃掉, 那日志就没了, 或者用户关掉浏览器也会丢掉这部分数据 (据说有一些方式可以响应关闭事件并上报日志。

IT 安全/ 2012-11-13 13:52:34 / 累计浏览 11,250

你必须了解的Session的本质

有一点我们必须承认,大多数web应用程序都离不开session的使用。这篇文章将会结合php以及http协议来分析如何建立一个安全的会话管理机制。我们先简单的了解一些http的知识,从而理解该协议的无状态特性。然后,学习一些关于cookie的基本操作。最后,我会一步步阐述如何使用一些简单,高效的方法来提高你的php应用程序的安全性以及稳定行。

IT Oracle/ 2012-11-13 13:50:00 / 累计浏览 4,467

数据文件的CREATION_TIME来源和算法

对ORACLE比较熟悉的人都知道v$datafile.CREATION_TIME和v$datafile_header.CREATION_TIME这两个列都是表示数据文件的创建时间,而根据我们的经验可以知道几点: 1.当v$datafile.CREATION_TIME与v$datafile_header.CREATION_TIME不一致时数据库不能正常启动; 2.v$datafile.CREATION_TIME的值来源于v$datafile_header.CREATION_TIME; 3.而v$datafile_header.CREATION_TIME的值来源于数据文件头的块中的信息; 现在就出现一个问题,数据块中的kcvfhcrt是一个16进制的数,如何实现在v$datafile和v$datafile_header中转为为了数据文件创建的日期。

IT 视觉设计/ 2012-11-13 13:47:15 / 累计浏览 3,989

浅谈设计中的逻辑

逻辑(理则学),源自古典希腊语λόγος (logos),最初的意思是“词语”或“言语”,还引申出意思“思维”或“推理”。逻辑经常被认为对论证评价准则的研究,尽管逻辑的精确定义在哲学家之间尚有争议的事情。这个主题还是有所依据的,逻辑学家的任务是相同的:提出大量的有效和谬误的推论,从而允许人们区别出好论证和坏论证。 逻辑,也就是思维的规律。小时候有人问我一群羊加一群羊等于多少群羊,我二话不说是两群羊,他说错了,是一大群羊。1+1=2是真理,1+1=1也是真理。逻辑的存在如同我们日常生活一样。有着密不可分的常态感。种族之间的相互不一影响着人类的认知,美国人的独立平等可不一定能让各就其位等级严格的日本人接受。所以,我理解的设计中的逻辑,是常规意识下有规范有顺序,有理有据,小到一个符号也能说明和画面的关系以及他存在的意义的。

IT JavaScript/ 2012-11-13 13:46:27 / 累计浏览 3,828

浏览器的重绘[repaints]与重排[reflows]

在项目的交互或视觉评审中,前端同学常常会对一些交互效果质疑,提出这样做不好那样做不好。主要原因是这些效果通常会产生一系列的浏览器重绘和重排,需要付出高昂的性能代价。

IT 算法/ 2012-11-11 23:58:30 / 累计浏览 3,730

正态分布的前世今生(四)

要拉下正态分布的神秘面纱展现她的美丽,需要高深的概率论知识,本人在数学方面知识浅薄,不能胜任。只能在极为有限的范围内尝试掀开她的面纱的一角。棣莫弗和拉普拉斯以抛钢镚的序列求和为出发点,沿着一条小径把我们第一次领到了正态分布的家门口,这条路叫作中心极限定理,而这条路上风景秀丽,许多概率学家都为之倾倒,这条路在20世纪被概率学家们越拓越宽。而后数学家和物理学家们发现:条条曲径通正态。著名的物理学家 E.T.Jaynes 在他的名著《Probability Theory, the Logic of Science》(中文书名翻译为《概率论沉思录》)中,描绘了四条通往正态分布的小径。曲径通幽处,禅房花木深,让我们一起来欣赏一下四条小径上的风景吧。