您现在的位置:首页
--> 其他
学习型开发组织将能够很好的支撑自适应的产品创新开发,优秀产品将自然涌现于优秀的团队之手。当自我组织和自律成为组织文化时、当流程是用来和适应支持而非限制人们时、当个人才能和技巧得到重视时,伟大的产品自然就会从优秀的团队的手中涌现出来。
上周花了一个周末的时间,把我自己的博客生成系统彻底重构成较为通用的系统了。这件事其实一直就想做,不过一直没想好怎么在简单和通用间做好权衡。上周接连接到几名同学在微博上问我的博客是用什么系统搭建的,终于促使我下决心把这件事情做掉。目前这个系统已经定名为papery,源码在github上,并发布到了npm。
淘宝现有实际应用以及推荐的文档来看,基于可扩展性及系统成本的考虑,商用的个性化推荐系统以黑盒推荐为基础。黑盒推荐的核心是机器学习和数据挖掘算法,有着坚实的数学基础和明确的优化指标与方法,所以推荐质量有基本的保证。搭建系统既不需要领域内的知识,也不需要过多的人工干预,同时可扩展性较强,应对用户和条目的增长成本相对可控。
Storm是一个分布式的流处理系统,利用anchor和ack机制保证所有tuple都被成功处理。如果tuple出错,则可以被重传,但是如何保证出错的tuple只被处理一次呢?Storm提供了一套事务性组件Transaction Topology,用来解决这个问题。
Transactional Topology目前已经不再维护,由Trident来实现事务性topology,但是原理相同。
本章介绍了storm集群如何实现数据的可靠处理。借助于创新性的tuple tree跟踪技术,storm高效的通过数据的应答机制来保证数据不丢失。storm集群中除nimbus外,没有单点存在,任何节点都可以出故障而保证数据不会丢失。imbus被设计为无状态的,只要可以及时重启,就不会影响正在运行的任务。
本章从storm的基本对象的定义,到广泛的介绍了storm的开发环境,从一个简单的例子讲解了topology的构建和定义。希望大家可以从本章的内容对storm有一个基本的理解和概念,并且已经可以构建一个简单的topology!!
Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。Storm有很多使用场景:如实时分析,在线机器学习,持续计算,分布式RPC,ETL等等。Storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度很快(在一个小集群中,每个结点每秒可以处理数以百万计的消息)。Storm的部署和运维都很便捷,而且更为重要的是可以使用任意编程语言来开发应用。
CPU cache一直是理解计算机体系架构的重要知识点,也是并发编程设计中的技术难点,而且相关参考资料如同过江之鲫,浩瀚繁星,阅之如临深渊,味同嚼蜡,三言两语难以入门。正好网上有人推荐了微软大牛Igor Ostrovsky一篇博文《漫游处理器缓存效应》,文章不仅仅用7个最简单的源码示例就将CPU cache的原理娓娓道来,还附加图表量化分析做数学上的佐证,个人感觉这种案例教学的切入方式绝对是俺的菜,故而忍不住贸然译之,以飨列位看官。
在ali集团对数据库的数据采集、监控、分析等由xxagent完成,所以对xxagent运行稳定非常重要。下面介绍xxagent一个bug,导致数据查询异常。
网站内容的所有者是网站管理员,搜索引擎应该尊重所有者的意愿,为了满足以上等等,就需要提供一种网站和爬虫进行沟通的途径,给网站管理员表达自己意愿的机会。有需求就有供应,robots协议就此诞生。Robots协议,学名叫:The Robots Exclusion Protocol,就搜索引擎抓取网站内容的范围作了约定,包括网站是否希望被搜索引擎抓取,哪些内容不允许被抓取,把这些内容放到一个纯文本文件robots.txt里,然后放到站点的根目录下。爬虫抓取网站内容前会先抓取robots.txt,据此“自觉地”抓取或者不抓取该网页内容,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。
gtest,英文全称是Google C++ Testing Framework,英文简称是Google Test,中文译为“谷歌C++测试框架”,它是从谷歌内部诞生并受到业界追捧的一个非常优秀的测试框架,支持如自动发现测试、自定义断言、死亡测试、自动报告等诸多功能。
数据化的另一大关键,就是如何与(移动)互联网与物联网有效融合。因为目前为止,移动互联网为我们提供了最好的,与用户粘在一起并充分挖掘用户数据的机会。无论是移动、社交还是本地化,都释放出了海量的数据,也就有着重大的挖掘空间。
究竟如何才能把数据转化为利润呢? 对大多数公司来说, 有两种选择, 一是数据导向的流程, 二是数据导向的产品。
如今,你到哪儿都能听到大数据。别说是亚马逊这样的公司,现在就是一个小的Startup, 每天也能有几个G的数据量。 而像Instagram 这样的照片分享网站,每天轻松就能产生出500T的数据量。 不少企业的CEO们都会问一个问题:“好,现在我有这么多数据,下一步我该怎么做呢?”
说起翻译,许多人都有兴趣。但真正能动手去尝试的人,只占其中的一小半;能熬过尝试阶段的煎熬,真正入门的人,更是少之又少。这种现象给不少人造成了错觉,认为翻译是件看起来容易做起来难的事情。但是根据我自己的经历和其它做译友的反馈,这话其实只说对了一半,翻译“做起来”并没有那么难。翻译之所以给人“做起来难”的感觉,很大程度上是难在入门阶段,难在一些基本问题没有解决。所以,这篇文章来谈谈大家关心的两个基本问题:第一,翻译是怎样的工作;第二,直译更好还是意译更好。
我发现雅虎所谓的「公司政治」问题比较严重,没有那么很强烈的「所有人做事都是为了雅虎」的理念,他们内部是以BU(业务单元)这种方式运作的,小组与小组之间存在隔膜,都主要考虑自身那一小块的利益,相互之间的配合支持度较差。……后来到了Facebook,感觉完全不一样,绝大多数人都很清楚,「我们并不是为了某个小组工作的,我们的目标是整个Facebook的发展」。
• 在敏捷
Scrum 不是定死的一种模式,每个团队有每个团队的玩法。通过不断的磨合、反思、改进,形成最适合自己团队的模式。而这些,都需要沟通。最好是当面的沟通。 场合也能起到帮助,公司内搞不定的,拉出去喝一顿,喝一顿搞不定的,换个地再喝一顿。
Django数据库访问优化
• 程序员不是包身工
近3天十大热文
- [68] IOS安全–浅谈关于IOS加固的几种方法
- [67] Twitter/微博客的学习摘要
- [63] 如何拿下简短的域名
- [63] android 开发入门
- [63] Go Reflect 性能
- [61] find命令的一点注意事项
- [60] Oracle MTS模式下 进程地址与会话信
- [59] 流程管理与用户研究
- [58] 【社会化设计】自我(self)部分――欢迎区
- [56] 图书馆的世界纪录
赞助商广告