几个HIVE的streaming
前段时间在做JIS旺铺装修项目的数据开发,整个过程逻辑非常之纠结,有好几处HIVE代码本身无法满足,因此写了四个python的streaming,在此 跟大家分享下,以后有需要用到相似逻辑的同学可以拿去稍微改改直接用。 1)输出某行数据之前所有的数据; 本实例输入为按照第三个参数分组的数据集,每组中逐条输出所有数据,直到遇到第四个参数为零时则停止输出: import sys def main(): flag = ” shop_id = R...
精选技术长文、实践记录与系统化阅读
低噪声、高可扫读;标题、摘要、来源、标签一目了然。
采集自各技术站点的近期文章。
前段时间在做JIS旺铺装修项目的数据开发,整个过程逻辑非常之纠结,有好几处HIVE代码本身无法满足,因此写了四个python的streaming,在此 跟大家分享下,以后有需要用到相似逻辑的同学可以拿去稍微改改直接用。 1)输出某行数据之前所有的数据; 本实例输入为按照第三个参数分组的数据集,每组中逐条输出所有数据,直到遇到第四个参数为零时则停止输出: import sys def main(): flag = ” shop_id = R...
在Oracle数据库的运行过程中,可能会因为一些异常遇到数据库挂起失去响应的状况,在这种状况下,我们可以通过对系统状态进行转储,获得跟踪文件进行数据库问题分析;很多时候数据库也会自动转储出现问题的进程或系统信息;这些转储信息成为我们分析故障、排查问题的重要依据。 本章通过实际案例的详细分析,讲解如何逐层入...
Mac下装软件很简单,大多数都是只需要下一个.dmg文件即可,简直比Windows下的大多数软件安装还方便。当然,安装XCode可能需要些时间,不过跟Windows下的软件一样同意并一直默认的点下去就像了,只是比VS的安装过程简单点。 不过,有些需要自己编译的软件有点麻烦。这也是Linux为什么不能普及的原因之一――黑客众多,他们贡献的开源代码也多,但是很多优秀的软件没有给普通用户一种便捷的安装方式。(当然,对于开发者来说,几行命...
目前磁盘都是机械方式运作的,主要体现在磁盘读写前寻找磁道的过程。磁盘自带的读写缓存大小,对于磁盘读写速度至关重要。读写速度快的磁盘,通常都带有较大的读写缓存。磁盘的寻道过程是机械方式,决定了其随机读写速度将明显低于顺序读写。在我们做系统设计和实现时,需要考虑到磁盘的这一特性。 FastDFS是一个开源的高效分布式文件系统,它最初的实现,文件是按hash方式随机分布到多个目录中的,后来增加了顺序存放的做...
Redis 是支持多key-value数据库(表)的,并用 RedisDb 来表示一个key-value数据库(表). redisServer 中有一个 redisDb *db; 成员变量, RedisServer 在初始化时,会根据配置文件的 db 数量来创建一个 redisDb 数组. 客户端在连接后,通过 SELECT 指令来选择一个 reidsDb,如果不指定,则缺省是redisDb数组的第1个(即下标是 0 ) redisDb. 一个客户端在选择 redisDb 后,其后续操作都是在此 redisDb 上进行的. 下面会详细介绍一下 redisDb 的内存结构.
有一天我跟在DUMBO的一个非常棒的创业公司的老板聊天,谈到为什么非PHP界的开发人员普遍轻视PHP和PHP相关社区。他提出了一个观点让我印象很深,很大程度上是因为以前从来没有听到过这样的说法。 如果你不知道大多数的程序员都会对PHP发什么样的牢骚,那么,这些牢骚差不多会像这样: 语法丑陋 缺乏其它语言都有的一些必要的特征(在5.3版本之前,没有命名空间,闭包) 不一致的函...
在Apache Prefork模式下, 启动的时候, Apache就会fork出一些worker进程, 来准备接受请求, 这些worker进程, 在完成准备工作以后, 就会进入block模式的监听沉睡中, 等待请求到来而被唤醒.
Microsoft云存储服务分为两个部分,SQL Azure和Azure Storage。云存储系统的可扩展性和功能不可兼得,必须牺牲一定的关系数据库功能换取可扩展性。Microsoft实现云存储的思路有两种: 1, 做减法。SQL Azure直接在原有的SQL Server上引入分布式的因素,在满足一定可扩展性的前提下尽可能不牺牲原有的关系型数据库功能。SQL Azure的可扩展性是有限的,单个SQL Azure实例不允许超过50GB,这是因为SQL Azure不支持子表动态分裂,单个SQ...
Hive优化
网络丢包是我们在使用ping(检测某个系统能否正 常运行)对目站进行询问时,数据包由于各种原因在信道中丢失的现象。ping使用了ICMP回送请求与回送回答报文。ICMP回送请求报文是主机或路由器 向一个特定的目的主机发出的询问,收到此报文的机器必须给源主机发送ICMP回送回答报文。这种询问报文用来测试目的站是否可到达以及了解其状态。需要指 出的是,ping是直接使用网络层ICMP的一个例子,它没有通过运输层的UDP或TCP。
列表视图(ListView)是Android平台下用于显示不定数量的数据最有用的视图控件之一。在这个教程中,我们将向你展示如何使用ListView来浏览文章列表。 在之前的文章中,你看到了许多关于不同布局控件的教程。在今天这个教程中,你将结合使用它们。应用程序本身非常简单:它将显示文章标题列表,当点击标题时,显示文章内容。这篇文章的节奏将比我们的入门教程更快一些。如果你对基本的Android控件或概念不熟悉你可能需要复习这个网...
夏日要到了,酷热的天气,灿烂的阳光,想在夏日里获得众人的目光和赞美,快试试小白介绍的几招,一起打造清爽的夏日装,让在一切更加舒服,有活力。
当我们在命令行下面做开发的时候,很大一部分时间都浪费在了目录切换上面,相信不少人每天敲 “cd” 都敲得想吐。如果目录层次多一点,Tab 键也会饱受摧残。虽然 Bash 有内置的 “cd -”, “pushd” 和 “popd” 命令,但用起来都不是很顺手。昨天在 Twitter 上看到了 Huy Nguyen 的一篇文章:Quick Bash Tip : Directory Bookmarks,用几行简单的 Bash 脚本巧妙地给目录加上了书签,这...
其实除了 firebug 之外,在其他浏览器上,也存在 Developer Tools、Dragonfly 等等开发者工具。在此简要介绍一下 Web Inspector(网页审查工具),希望可以方便大家在多领域进行网页开发。 开启方法: 在支持该功能的浏览器上(Chrome/Maxthon3/Safari),点击右键,调用“审查元素”: 点击“审查元素”开启后的界面如下: 元素(Elements)、资源 (Resources) 、脚本 (Scripts) 、时间轴 (Timeline) 剖析 (Profiles) 、存储 (Sto...
昨天,一位老上级邀请我一起吃午餐。当坐在哪里等待上菜时,我们缅怀起早期这个公司的往事。他有一句话让我心里一虚: 啊,你这个判官…我记得当你看到Dan(公司的第一位程序员)写的代码时的样子。你说:“这代码写的真烂,需要重写!” 我恐怕是没有足够的勇气告诉他,我这“代码需要重写”的主张是错误的。不错,我认为这代码写的很乱。但是,据过去历次的经验,我感觉大部分...
虽说是聊工具们,实际上更多还是服务的范畴了。我用一个工具,只因为我觉得好用;不用一个工具的原因则太多。好用,是指我用得愉快;导致我不愉快的原因则太多。工具一览表: 目田门 QQ邮箱的随身盘和文件中转站 7-Zip 谷歌浏览器 proxySwitchy QQ输入法 QQ云输入法豆瓣FM QQ音乐 千千静听 Flickr Photoshop 光影魔术手新浪微博 豆瓣社区 知乎 Quora 豆瓣读书谷歌日历 QQ邮箱的提醒 Gmail 谷歌阅读器微软办公软件 谷歌文档 ...
vim默认没有一般IDE的outline视图,浏览长篇Javascript源文件很麻烦,taglist插件正是弥补这点不足。它可以将所有方法和变量分级罗列出来,一目了然。taglist是依赖强大的ctags实现的。ctags支持41种编程语言,其中包括Javascript,但对Javascript支持较随意。
之所以萌生写这篇分享文的原因是近期有各方面的美术人或者产品都有问我是如何去审核一个美术作品的,而且,我认为一个美术设计师不单要懂得如何去设计作品,而且要懂得如何去鉴赏一个商业设计的美术作品,以达到对比促进,因此,为设计团队也好,为产品方能更了解我们美术团队的标准也好,这里我简单概要地写一下如何快速有效地审核评定一个美术作品(主要针对网易设计领域),以作参考之用。 作为一个美术管理人,一天面对大...
一段用JavaScript判断IE版本号的代码。
每个浏览器都有他自己的一个默认样式。可以保证HTML可以在没有自定义样式的情况下也能被有据可循的渲染。你应该知道:未访问的链接是蓝色、访问过的是紫色、strong标签加粗显示、H1的字号大一些。然后,各厂商就是喜欢让我们的生活丰富多彩一点,然后每个浏览器的默认样式都不相同。所以,你怎么能保证你的自定义样式不会被浏览器的默认样式影响呢? CSS重置,这个方法通常用来清除浏览器内置的默认样式。通常,所有的字体和line-h...