IT技术博客大学习 共学习 共进步

技术文章

精选技术长文、实践记录与系统化阅读

技术文章精选

低噪声、高可扫读;标题、摘要、来源、标签一目了然。

最新文章

采集自各技术站点的近期文章。

IT MySQL/ 2012-07-09 23:00:59 / 累计浏览 2,549

DB2多分区数据库的常用管理

DB2的多分区管理通常会给大家有点挑战性,但是很多时候多分区和单分区管理差别不是很大,如下总结了常见的操作管理命令: 启动指定分区的数据库节点: db2start dbpartitionnum DBNODENUM 在日常操作中,我们需要确定当前连接节点号码,如下就是检查当前分区节点号码方法: db2 values current dbpartitionnum 在日常多分区环境下 ,需要查看分区组数如下: db2 LIST DATABASE PARTITION GROUPS SHOW DETAIL

IT 设计思想/ 2012-07-07 23:37:02 / 累计浏览 3,305

互联网产品之约炮神器的惊艳设计

网上盛传微信这款产品是约炮利器.很神! 我本对这种约炮交友产品不感兴趣,从媒体获知 这款产品的用户攀升至1亿用户了.我觉得应该安装玩玩了,学习张小龙老师的产品设计理念嘛,喜欢他倒腾的腾讯邮箱,赞呀.

IT 系统运维/ 2012-07-07 23:35:04 / 累计浏览 2,527

有关读写锁

为什么需要用读写锁。读写锁用于single thread写,多个thread读的情况。在没有发明读写锁之前,我们当然可以对所有的thread使用Mutex来控制资源访问。但是在这个场景中,两个thread读取数据没有必要进行互斥,读写锁应运而生,是的这种场景下所有拿到读锁的thread可以并行执行。读写锁的实现。实现:在多核系统中读写锁的实现一般是基于SpinLock,Linux就是如此。抢占策略:写优先还是读优先。这个都可以,我觉得写优先比较好一点,因为一般此类应用读thread占多数,如果读优先则写锁线程可能被饿死。读锁的upgrade和downgrade。有的时候在读到一半的时候,可能突然又要想写点什么东西,此时不能直接拿写锁,一定会死锁。只能关掉读锁来重新竞争写锁。这时候可以引入读锁的upgrade来使其直接升级为写锁。

IT 算法/ 2012-07-07 23:06:46 / 累计浏览 5,213

浅析PageRank算法

这篇文章是我对一些资料的归纳汇总,简单介绍了PageRank的背景、作用、计算方法、变种、Spam及反作弊等内容。为了突出重点我简化了搜索引擎的模型,当然在实际中搜索引擎远没有这么简单,真实算法也一定非常复杂。不过目前几乎所有现代搜索引擎页面权重的计算方法都基于PageRank及其变种。因为我没做过搜索引擎相关的开发,因此本文内容主要是基于现有文献的客观总结,稍加一点我的理解。

IT 系统架构/ 2012-07-07 23:03:36 / 累计浏览 2,249

自动问答技术简介

引言无论是苹果公司iPhone上火热的应用Siri,还是去年2月在美国电视竞答节目Jeopardy中打败人类冠军的Watson,都与“自动问答”直接相关。什么是自动问答,自动问答产品能带来什么好处,百度有什么样的自动问答产品,本文将用通俗的语言为您一一道来。 图 1 Siri(左)和Watson(右)自动问答是自然语言处理领域的一个重要方向,旨在让用户直接用自然语言提问并获得答案。例如,用户询问“百度大厦在哪儿?”,问答系统回答“北京市海淀区上地十街10号”。从用户的角度看,自动问答是一种简单且简洁的信息获取方法。用户直接用自然语言与问答系统交互,而无需考虑使用什么样的关键词组合表示自己的意图,所以简单;问答系统直接返回问题的答案,用户无需从冗长的相关文档中自己寻找答案内容,所以简洁。 传统的自动问答技术传统的自动问答系统包括三个主要部分:问题分析、信息检索和答案抽取。

IT 视觉设计/ 2012-07-07 23:02:49 / 累计浏览 1,687

营销活动制作过程——以321大促为例

众所周知这是设计的第一步,个人认为这也是最重要的一步;因为整个活动的风格走向都是在这一步确定的。首先需要弄清楚需求方想要什么,可能这个需求方不止一个人,关键是谁来做决定;通过直接或间接的方式收集到的关键词是“热闹”、“抢”;因为是为3月21日的促销做预热,所以整个预热页面的重点就是促销气氛的烘托,以及3月21日当天活动告知。

IT Oracle/ 2012-07-07 22:53:30 / 累计浏览 3,243

ORACLE 11g新特性-允许DDL锁等待DML锁

之前也写了一些关于ORACLE11g新特性的文章,现在ORACLE 11g已成为主流的ORACLE数据库版本,了解和学习ORACLE 11g的新特性至关重要,本人也是ORACLE 11g新特性的初学者,在此分享下我的学习过程和心得。 本文主要记录的是ORACLE 11g的一个新特性,允许DDL锁等待DML锁,这也是在6月30日,张乐奕(kamus)老师在ACOUG活动中分享的一个主题。

IT 算法/ 2012-07-07 22:50:49 / 累计浏览 2,767

线性同余发生器的参数如何选取?(以JDK和leveldb的代码为例)

我们平时所用的伪随机数生成器(PRNGs)主要有两种:线性同余发生器(Linear Congruence Generator)和反馈位移寄存器法(Feedback Shift Register)。 线性同余发生器是通过这样的递推函数产生随机序列: x=(a*x+c)%M (x,a,c,M都是非负整数) 这样产生的随机数序列,一定是有周期的,且小于等于M。在实际应用中,当然希望周期越大越好。

IT Oracle/ 2012-07-07 22:48:18 / 累计浏览 1,966

ORACLE 11g新特性-虚拟列

在上周六的ACOUG活动中,张乐奕(kamus)老师分享了一个关于ORACLE 11g新特性的主题,本人觉得在10g这个过渡版本已成过去(官网已不提供10g版本的介质下载),12c马上发布,11g已经成熟而有些人还没有开始使用11g的年头,了解11g的新特性还是很有必要的,本文主要和大家一起学习下ORACLE 11g新特性—虚拟列(Virtual Columns)。

IT 系统架构/ 2012-07-07 22:46:55 / 累计浏览 1,288

产品发布过程演进——移动贴吧分级发布实践

为了达到“在产品发布过程中,通过及时有效的发现和控制新引入线上缺陷的影响范围,保护用户体验,提升上线质量”的目的,我们在吸收和借鉴Facebook灰度发布等技术的基础上,探索出符合产品线现状的“分级发布”方案,并在移动贴吧产品线的实施中验证和改良。本文主要介绍贴吧分级发布的背景、方案、实施过程、实施效果和后续展望。   一、             背景作为贴吧这样上亿PV的产品线,一旦有bug遗留到线上,影响的将是成千上万的用户,对产品形象有很大的伤害;对工程师来说,在各种高优先级的修复项目间疲于奔命,也在一定程度上挫伤士气,降低了效率。那么有没有一种方法可以让我们“在既有的开发测试水平下,更快发现线下测试难以找出的bug,以有效控制产品缺陷的影响范围,提高产品质量呢?”  

IT 算法/ 2012-07-07 22:46:21 / 累计浏览 10,445

相似度计算常用方法综述

 引言        相似度计算用于衡量对象之间的相似程度,在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分,对象的特征表示,特征集合之间的相似关系。在信息检索、网页判重、推荐系统等,都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景,受限于数据规模、时空开销等的限制,相似度计算方法的选择又会有所区别和不同。下面章节会针对不同特点的应用,进行一些常用的相似度计算方法进行介绍。 2向量空间模型向量空间模型(Vector space model)是应用最广泛的一个基础相似度计算模型,在该模型中,每个对象映射为一个特征向量:   作为一个应用广泛的模型,向量空间模型在现有的很多应用中仍然起着至关重要的作用,也是很多扩展方法的基础。

IT 系统运维/ 2012-07-07 22:32:31 / 累计浏览 2,827

OpenTSDB监控系统的研究和介绍

常用的监控系统常常包含以下缺点:1)中心化数据存储进而导致单点故障。2)有限的存储空间。3)数据会因为时间问题而变得不准确。4)不易于定制图形。5)不能扩展采集数据点到100亿级别。6)不能扩展metrics到K级别。7)不支持秒级别的数据。而开源监控系统OpenTSDB,它可以解决上面的问题,它用hbase存储所有的时序(无须采样)来构建一个分布式、可伸缩的时间序列数据库。它支持秒级数据采集所有metrics,支持永久存储,可以做容量规划,并很容易的接入到现有的报警系统里。OpenTSDB可以从大规模的集群(包括集群中的网络设备、操作系统、应用程序)中获取相应的metrics并进行存储、索引以及服务,从而使得这些数据更容易让人理解,如web化,图形化等。

IT 算法/ 2012-07-05 13:38:10 / 累计浏览 2,649

同义词反馈机制

1.   介绍由于搜索算法本身的局限性,对于用户的语义、意图等理解不够,而基于用户行为的点击调权,作为对传统搜索算法的补充,在搜索中扮演着重要的作用。尽管用户行为已经被证明在搜索中的效果,但是一直只是停留在query-url层面,或者ngram-url层面[1],没有深入反馈到检索算法中的基础策略,比如:同义词、紧密度、省略等,这些策略影响了url与query之间的关系。本文以对同义词的反馈为例,提出一个通用的基于用户行为的基础策略反馈框架。由于同义词词典与线上应用算法的限制,检索系统中存在部分质量不好、或者本来质量好但是应用时错误降低了权值的同义词。在同义词召回出来结果后,呈现在用户面前,用户的行为数据可以帮助我们识别同义词的好坏。在计算出同义词的好坏后,就可以直接应用于同义词的退场或者调整应用的权值。

IT 奋斗/ 2012-07-04 14:08:56 / 累计浏览 6,609

降级论

几乎一年没有写博客了,说没时间那是借口,唯一的原因是,年纪越大越发觉自己肤浅。有些想法还没提笔,就发现很幼稚,就不敢发出来贻笑大方了。这次先给大家说个小故事:从前有三个屌丝,聚在一起做网络,提供免费的网络服务,砸锅卖铁,通宵达旦,除了卖肾啥都做了。3年后终于做到了五百万用户,对于年轻人来说,能把五百万人玩弄于鼓掌之间,已经是很牛逼轰轰的事了,不过用户越多,成本越高,每年服务器、带宽租金、房租水电、广告运营等成本,已经达到了十七八万,屌丝们不得不面对一个终极问题:如何盈利?屌丝们定了三盘沙县水饺,围着一箱子的冰啤酒开始计算:按照最近一月的登陆情况来看,四百万个账号已经不活跃了,真正有商业价值的只有一百万人,如 果开通xx功能,收点高级会员费,让其中1%的人升级为高级会员,每年付30块钱年费,那么每年收入就是100万x1%x20元=30万元!不错嘛, 扣除十七八万的运营成本,还剩毛利润。。。

IT MySQL/ 2012-07-04 14:07:59 / 累计浏览 1,745

关于 innodb_stats_on_metadata 的设置问题

这个问题来自QA同学测试时候碰到的一个“诡异现象”。 1、 测试现象        测试的库有很多数据,但是重启之后,只对一个表的5w条记录作查询。查询条件客户端控制,确保查询范围。innodb_buffer_pool_size设置为35G。

IT PHP/ 2012-07-04 14:07:32 / 累计浏览 9,908

PHP程序的执行流程

为了以后能开发PHP扩展,就一定要了解PHP的执行顺序。这篇文章就是为C开发PHP扩展做铺垫。 Web环境我们假设为Apache。在编译PHP的时候,为了能够让Apache支持PHP,我们会生成一个mod_php5.so的模块。Apache加载这个模块,在url访问.php文件的时候,就会转给mod_php5.so模块来处理。这个就是我们常说的SAPI。英文名字是:Server Application Programming Interface。SAPI其实是一个统称,其下有 ISAPI,CLI SAPI,CGI等。有了它,就可以很容易的跟其他东西交互,比如APACHE,IIS,CGI等。 Apache启动后会将mod_pho5.so模块的hook handler注册进来,当Apache检测到访问的url是一个php文件时,这时候就会把控制权交给SAPI。进入到SAPI后,首先会执行sap

IT MySQL/ 2012-07-04 14:07:11 / 累计浏览 3,470

MySQL Cluster集群探索与实践

简介 MySQL集群是一种在无共享架构(SNA,Share Nothing Architecture)系统里应用内存数据库集群的技术。这种无共享的架构可以使得系统使用低廉的硬件获取高的可扩展性。 MySQL集群是一种分布式设计,目标是要达到没有任何单点故障点。因此,任何组成部分都应该拥有自己的内存和磁盘。任何共享存储方案如网络共享,网络文件系统和SAN设备是不推荐或不支持的。通过这种冗余设计,MySQL声称数据的可用度可以达到99.999%。实际上,MySQL集群是把一个叫做NDB的内存集群存储引擎集成与标准的MySQL服务器集成。它包含一组计算机,每个都跑一个或者多个进程,这可能包括一个MySQL服务器,一个数据节点,一个管理服务器和一个专有的一个数据访问程序。它们之间的关系如下图所示: 存储引擎 MySQL Cluster 使用了一个专用的基于内存的存储引擎,这样做的好处是速度快

IT 设计思想/ 2012-07-04 14:04:20 / 累计浏览 2,753

互联网女人生意之化妆品社区思考

作为互联网重度用户,从事草根互联网行业;关注互联网至今,见证了很多励志的互联网故事,在长期洗脑的氛围下,自然而然的有时觉得自己应该做点什么,对互联网思考从未停止.(插一句,互联网绝对的草根行业,加入门槛太低,是中国竞争最激烈的行业,几乎所有聪明的、投机的、浮躁的人参与的行业,每个人都怀抱改变世界的梦想,然后很大一部分人从来不懂 什么叫做社区,什么叫做流量生意,什么叫做因为爱所以爱,哎.+_+,这个抱怨和本文无关)

IT 其他/ 2012-07-04 14:03:45 / 累计浏览 1,626

索引页链接补全机制的一种方法

背景 Spider位于搜索引擎数据流的最上游,负责将互联网上的资源采集到本地,提供给后续检索使用,是搜索引擎的最主要数据来源之一。spider系统的目标就是发现并抓取互联网中一切有价值的网页,为达到这个目标,首先就是发现有价值网页的链接,当前spider有多种链接发现机制来尽量快而全的发现资源链接,本文主要描述其中一种针对特定索引页的链接补全机制,并给出对这种特定类型的索引页面的建议处理规范用于优化收录效果。 当前大多数互联网网站以索引页和翻页的形式来组织网站资源,当有新资源增加时,老资源往后推移到翻页系列中。

IT 系统架构/ 2012-07-04 14:03:22 / 累计浏览 3,410

JavaScript解析:让搜索引擎看到更真实的网页

长期以来,站长们选择使用JavaScript来实现网页的动态行为,这样做的原因是多种多样的,如加快页面的响应速度、降低网站流量、隐藏链接或者嵌入广告等。由于早期的搜索引擎没有相应的处理能力,导致在索引这类网页上往往出现问题,可能无法收录有价值的资源,也可能出现作弊。引入JavaScript解析的目的,正是为了解决上述两方面的问题,其结果也就是使搜索引擎可以更为清晰的了解用户实际打开该网页时看到的效果。比如有些网站会将用户评论、评分等信息从网页HTML中抽离,利用JavaScript甚至AJAX等方法在页面被打开的时候动态显示出来,早期的搜索引擎此时能处理到的页面内容就是缺失的,由此会进一步影响对该页面索引价值的判断。要引入JavaScript解析,需要考虑本身的设计与实现、解析速度和对系统其它方面影响等因素,本文通过一些典型的案例来分析如何设计并实现一套网页JavaScript解析系统