IT技术博客大学习 共学习 共进步

技术文章

精选技术长文、实践记录与系统化阅读

技术文章精选

低噪声、高可扫读;标题、摘要、来源、标签一目了然。

最新文章

采集自各技术站点的近期文章。

IT 算法/ 2010-12-29 21:45:45 / 累计浏览 3,535

几个随机算法

         在日常工作中,经常需要使用随机算法。比如面对大量的数据, 需要从其中随机选取一些数据来做分析。 又如在得到某个分数后, 为了增加随机性, 需要在该分数的基础上, 添加一个扰动, 并使该扰动服从特定的概率分布。本文主要从这两个方面出发, 介绍一些算法, 供大家参考。          首先假设我们有一个使用的随机函数float frand(), 返回值在(0, 1)上均匀分布。...

IT 互联网/ 2010-12-29 21:44:12 / 累计浏览 2,606

交通优化 Vs 网站优化

北京是个大堵城,今天因为限行,我6点半就出门了,可半个小时后还堵在离家2公里以内。 限行是个傻办法,就像网站访问量大时只知道加服务器一样。而且北京的限行规则定的还特别的没有技术含量。如果是我来定这个规则,不会定一天两个尾号,而是定单双号,不会定7点前后,而是定8点半前后。7点以前,意味着4/5的人不用调整作息时间,而1/5的人需要调整到一个很严苛的作息时间,因为太严苛了,所以基本上他们就不调整了,而是拿个光盘...

IT Oracle/ 2010-12-29 21:42:21 / 累计浏览 2,712

EXPDP:使用ESTIMATE_ONLY参数评估ESTIMATE性能

在使用Expdp进行导出时,Expdp需要计算导出数据大小容量,Oracle可以通过两种方式进行容量估算,一种是通过数据块数量、一种是通过统计信息中记录的内容估算。两者在不同版本中,可能有巨大的性能差异,尤其是在Oracle 10g的早期版本中,一些Bug严重影响了性能。

IT 奋斗/ 2010-12-29 21:41:29 / 累计浏览 2,208

APP小队进度汇报

月初的时候发了篇日志,想组建一个业余时间投入的APP小队。事情的由来是这样的。少年博学多才的无双dd在我论坛上发了篇帖子,说能不能做一个玩票的产品,用糗事百科的架构去发布5毛言论。我觉得挺酷,就叫“NC百科”吧,找了程序员老友问愿不愿意共同开发,玩一票。恰好老友要辞职,说好啊,考虑一下。考虑几天后表示运营风险太大,怕是活不了多久,这份投入划不来。不如一起开发更有前景的,比如APP。就整APP。一开始的小队成员是...

IT 用户研究/ 2010-12-29 09:16:31 / 累计浏览 2,355

霜波说心理学 ― 情绪

开场之前让大家思考一个问题:“情绪的作用是什么?” 之前看了很多情商的书:“告诉我们要识别情绪,要控制情绪,要识别别人的情绪,控制别人的情绪,要人不知而不愠。”总觉得少了点什么,后来发现,没有人告诉我:“情绪的作用是什么?” 对情绪作用的认识直接影响你面对情绪的处理方法。 情绪分为2中,正面情绪和负面情绪。正面情绪就是感觉好的情绪,于是人人都喜欢,负面情绪恰恰相反,感觉不好,人人都不喜欢。自己不喜欢也...

IT 算法/ 2010-12-29 09:16:09 / 累计浏览 2,183

Treelink算法介绍

         “机器学习”这个名词对大家来说想必不是一个陌生的词汇,特别对算法组的同学来说,工作中或多或少接触使用过这种“高科技“。对于我来说,刚来淘宝工作一个月就开始接触了机器学习,当时做主搜索功夫熊猫项目,和小致飘雪一起做交易模型,正是使用了机器学习的方法,也首次接触了treelink模型。做完那个项目后对机器学习解决问题的流程有了一定的了解,但对其内部的工作原理和...

IT 系统架构/ 2010-12-29 09:15:37 / 累计浏览 3,554

Hadoop Job Tuning

Hadoop平台已经成为了大多数公司的分布式数据处理平台,随着数据规模的越来越大,对集群的压力也越来越大,集群的每个节点负担自然就会加重,而且集群内部的网络带宽有限,数据交换吞吐量也在面临考验,由此引发了人们对大规模数据处理进行优化的思考。 本文仅从实践经验出发,针对Hadoop Job优化提出了一些观点,不包含HDFS的优化。 Job Tracker Related 严格来说,下面这个配置项,是决定HDFS文件block数量的多少(也就是文件个数...

IT 系统架构/ 2010-12-29 09:14:24 / 累计浏览 3,130

解读Google分布式锁服务

在2010年4月,Google的网页索引更新实现了实时更新,在今年的OSDI大会上,Google首次公布了有关这一技术的论文。          在此之前,Google的索引更新,采用的的批处理的方式(map/reduce),也就是当增量数据达到一定规模之后,把增量数据和全量索引库Join,得到最新的索引数据。采用新的索引更新系统之后,数据的生命周期缩短了50%,所谓的数据生命周期是指,数据从网页上爬下...

IT 信息和交互/ 2010-12-29 09:12:39 / 累计浏览 2,993

舒服:Aardvark邮件沟通的用语艺术

一直想写这么篇,介绍下Aardvard这个网站在和用户沟通上的一些艺术。Aardvard是一个类似于百度知道一样的社区,用户可以提出自己的问题,也可以回答别人的问题。这个网站之前被Google收购了。现在Google好像用这个来做youtube的客服工作,之类的。

IT 算法/ 2010-12-29 09:11:12 / 累计浏览 3,370

数组的优化循环展开与分割

数组的循环与分割, 利用了计算机系统的两个特点: 1. 有多块高速缓存; 2. Cpu是可以多指令并行执行(要求多条指令之间 没有数据相关性)。 在我们的例子中: 数组切分: 将1个数组切分为2个数组。 这样就能用2块高速缓存来存数据 , 高速缓存的访问速度是内存的 10倍以上 循环展开: 我们将的步进设置为4,每次处理的数据之间 没有任何关系,这样就能并行执行起来。 数据无关性: 就是下一次计算指令不受之前执行指令的结果影响。在我...

IT 奋斗/ 2010-12-28 20:57:36 / 累计浏览 13,889

我的 RHCA 之路

自己 10 多岁时不经意喜欢上 Linux ,由微软的系统工程师转做 Linux 很多年了,在三年前自己过了 RHCE 。当时就想,在这以后可能自己在也懒得考试任何证书了。。。没想到上次参加了一个会。。。自己一不小心,下了个错误的决定,决定还是考一下 RHCA 的证书。因为通过以前参数过的无数考试和培训的过程总结出来,自己培训和考试有几个好处。

IT 设计思想/ 2010-12-28 20:56:45 / 累计浏览 2,570

关系战争:微博对阵社交网站

SNS是Social Network Service的缩写,即社会化网络服务,不是社交网站。微博和社交网站都是服务的一种形式,把“微博”和“SNS”放在并列句里是严重和严肃的错误。 微博是内容社区,内容是主战场,以新浪微博为代表,内容社区还有天涯、豆瓣。社交网站是关系社区,维护强弱连接,比如人人网。 双向到单向 社交网站是典型的建立在熟人基础之上的传统关系,有点那么像优士网的一度人脉,二度人脉。之所以说“像”,因为优士网是为了...

IT 信息和交互/ 2010-12-28 20:56:16 / 累计浏览 3,091

让“提到”、“转发”和“评论”各司其职

这几天试用了饭否、腾讯微博和推特,发现它们都各有特点。饭否作为国内微博的始祖,虽然第二次出生,但还保留着上辈子的面貌,不论是用户体验还是功能都不具有竞争力,也难怪朋友说“现在这个fanfou测试版,个人觉得连alpha都算不上”。腾讯微博和新浪微博非常类似,出众之处在于合并了“转播”与“点评”的数量,直指新浪微博的“影响力”。 推特能匹敌脸谱,新浪微博一家独大,也说明一定的东西,它两是我想重点用笔的。 回应路...

IT JavaScript/ 2010-12-28 20:55:40 / 累计浏览 2,070

Closure Compiler 高级模式及更多思考

本文详细介绍了 Google Closure Compiler 的高级模式特性,更重要的是,就其高级模式下的一些行为动机 进行了分析,抛出了一些关于 js 动态特征相关的思考。

IT 系统架构/ 2010-12-28 20:52:49 / 累计浏览 4,187

梦幻西游服务器 IO 的一点优化

关注梦幻西游服务器的性能问题,是源于前几天跟同事的聊天。谈到能否把梦幻西游服务器做成无盘站,或是放进虚拟机里,便于日常维护管理。意外的了解到,现在磁盘 IO 性能居然成了梦幻西游服务器的瓶颈。而不是 CPU 或是网络带宽。据我所知,梦幻西游的服务器数据储存是这样做的:主游戏进程不负责储存,一切都在内存中。所有玩家的数据就是内存数据结构。只是在玩家登陆的时候去读取一下本地的文本文件,以及登出的时候把数据序列...

IT 系统架构/ 2010-12-28 20:46:49 / 累计浏览 2,712

Query Forwarding in Geographically Distributed Search Engines

这篇论文讲的是,一个全球的搜索引擎,需要在不同的地区布署一套服务,不同地区的索引不同。注:这也很容易理解,首先是带宽的压力,索引一般都是TB级别的,不能到处拷;其次是性能考虑,不同地区用户关注的网页是不同的,把用户不需要的网页也加进索引里,会使得检索性能很差。但是如果要地区的索引不能满足用户的需求,需要读取别的地区的索引的时候,怎么办?需要解决两个问题,一是是否需要读取别的地区的索引,二是读取哪...

IT 视觉设计/ 2010-12-28 20:43:36 / 累计浏览 3,234

玩的就是速度-AI的3D效果

在我们的视觉设计中经常会需要一些3D的字体效果或是3D的图形化icon。是不是翻遍很多网站苦于没有找到自己想要的角度或则是图形呢,找到了又要担心版权等等,没关系这里我将带你快速完成自己想要的。 首选AI来制作是再好不过了,因为他能无限放大满足印刷的需求又能满足大小的变化而不失真,这比3D软件来的更实在,呵呵,当然我们追求的速度和原创性。 1.现在我们开始第一步创建一个你想要的图形 2.选择:效果-3D-凸出和斜角,把...

IT 设计思想/ 2010-12-28 20:42:58 / 累计浏览 2,050

小议群组

最近做一个潜在用户访谈,问她,如果在博客之外,再维护一个摄影空间,会不会觉得有点烦?她想了想说,那得看这个空间能带给我什么新东西了。我问,什么样的新东西才会吸引住你呢?她说,比如我刚去过意大利旅游,就想看到意大利的片子,与拍意大利的人去交流――不要很刻意地每次都去找,那太累,最好能轻轻松松地推到面前。摄影空间如果只是基本的人与人之间的连接,和博客也没什么分别,希望能方便地(这很重要)接触到与我的喜...

IT Apache/ 2010-12-28 00:26:29 / 累计浏览 5,458

Apache Avro 与 Thrift 比较

Avro和Thrift都是跨语言,基于二进制的高性能的通讯中间件. 它们都提供了数据序列化的功能和RPC服务. 总体功能上类似,但是哲学不一样. Thrift出自Facebook用于后台各个服务间的通讯,Thrift的设计强调统一的编程接口的多语言通讯框架. Avro出自Hadoop之父Doug Cutting, 在Thrift已经相当流行的情况下Avro的推出,其目标不仅是提供一套类似Thrift的通讯中间件更是要建立一个新的,标准性的云计算的数据交换和存储的Protocol。 这个...