IT技术博客大学习 共学习 共进步

15年运维经验老兵对公有云的深度剖析

运维派 2015-05-11 23:37:47 累计浏览 4,643 次
本机暂存

   现在除了初创企业,很多大公司也开始将自己的服务部署在共有云平台上,因此公有云的稳定性和可靠性是十分重要的。本文作者作为一个有着十五年经验的运维老兵,对公有云的应用现状和发展趋势有着自己独到的见解。本文从公有云盈利分析、行业现状及发展前景、产品和技术分析等八个方面,比较全面地对公有云进行了剖析。

   以下为作者原文:

   首先,很抱歉用了“深度剖析”这个吸引眼球的词,其实我都算不上云计算行业内人士,所以认识和见解肯定多有不足之处,权当抛砖引玉,希望各位指教。

   本文提纲如下:

   一:公有云盈利分析;

   二:行业发展前景及市场分析;

   三:行业现状;

   四:还有机会吗?

   五:产品和技术分析;

   六:计费模式;

   七:用户群分析;

   八: CDN;

   一、盈利分析;

   我们先来谈谈钱:这些做公有云的到底赚不赚钱?都怎么赚钱的?

   截至2014年来说,应该都还没有盈利,2015年会有开始盈利的,世纪互联和微软联合运营这种不算。

   先看看各个产品的销售毛利率:

   云主机(含100G数据盘):SATA容量型为50-60%,SSD性能型各家情况相差较大、总体比SATA低几个点,有的甚至用上了闪存卡,毛利率更低;

   对象存储:20-30%;

   BGP带宽:负的,卖的越多亏的越大;

   LB:lvs在70%以上,HAProxy在60%左右;

   RDS/ cache:70%以上;

   CDN:暴利!后面专门篇幅说。

   以上数据基于理想状态下,资源利用率达到80%,规模较大、云主机2000台以上。

   再初略看看各服务商的盈亏状态:

   阿里云,CDN独立另算的话,肯定没赚钱,算上CDN也不一定盈利,主要因为人力成本、营销推广成本太高;

   盛大云,XX倒计时,一切看桥哥脸色;

   腾讯云,缩小版阿里云,情况差不多;

   ucloud,2015年盈利在望;

   青云,也接近盈利了;

   金山云,成本高、卖的还便宜,人家就没想盈利,疯狂烧钱中;

   unitedstack,规模没上来,啥也别谈,谈啥也没用;

   百度开放云,刚去掉beta,还不成熟,以后估计和腾讯云差不多;

   360游戏云,刚发布,超低成本,有游戏平台上的用户基础,上来就盈利。

   上海有个通联数据,做细分垂直领域--金融云,背靠万向控股,服务于在金融领域多年积累的客户,这应该是最赚钱的。不过套用时髦的说法,它应该是云计算概念。

   价格方面,BAT比创业型公司便宜30%左右,为啥?主要是资源/成本优势,其中包含规模效应。有人说我新架构成本当然更高啊,分布式3备份、万兆,你老架构raid1才2备份、网络千兆,表面看是这样,但站在更高的角度来看,分布式3备份、万兆带来的直接成本虽然更高,但整个平台得以升级后也带来了额外的好处,因为平台可靠性和稳定性比单机高很多,相对老架构省了raid卡、双电源,另外因为资源池化,在热迁移和动态调度系统

   支持下,可以提高资源利用率,资源利用率提高10%基本相当于成本降低10%,分布式如ceph,要占20%的CPU和内存,成本确实高一些,现实中很多人会通过超卖来抵消;又有人说我按秒计费啊,不用就关,关了不收费,别看我价格更高,总体算下来其实更省呢,其实按秒计费在成本上的意义并不大,具体请看后面第六节“计费模式”。

   趋势:毛利率层面来看,硬件成本不断下降,但公有云产品降价更快,而且第二大成本(机柜和带宽)基本是不变的,所以毛利率不断降低是必然的。

   规模效应不止是成本下降,更多的好处在于,可以推出更多附加值高的PaaS产品、打造平台。有完整生态系统的大公司,公有云不盈利都行,圈用户拉动其它业务增长。而对于创业型公司则是最核心甚至唯一的业务,一定要避免走价格战这条路。

   超卖:肯定有人这么干,我只想说:真心没必要,眼光放长远,把产品和服务做好,规模做大比什么都强,没规模算计这算计那、就算盈利了也没用,等以后市场成红海了再来考虑这些吧。实际操作中,分布式架构超卖更方便,本地盘会带来很多麻烦。

   二:行业发展前景及市场分析;

   国务院意见、互联网 等等政策面的积极影响,再明显不过了,基于信息安全考虑,去IOE、国产化,科技发展趋势:廉价x86架构开源免费软件替代昂贵的商用软硬件,也是有目共睹。整个云计算市场潜在规模巨大,正在快速发展的初期,趋势和前景大家都看得出来,不多说。

   市场还处于培育阶段,竞争不激烈,这一点从各家都没有公开黑同行、甚至点评都很谨慎可以看出来,大家都有缺点和硬伤,互相揭短只会让围观的用户越发不接受这个自身本来就不是很成熟的新事物,最后大家都别想好。反观另一个非常成熟的领域:手机,天天互相黑来黑去的。如果有一天,哪个公有云厂商开始公开黑同行了,就说明他翅膀硬了,市场很成熟了,增量用户不多、只能抢用户了。

   2017年公有云市场(含混合云的公有云部分)规模能到百亿RMB,企业和政府需求是互联网的10倍。政务云需求由政府力量驱动,企业需求由市场和科技驱动,互联网需求都不用怎么驱动、会主动拥抱。

   三年后的市场可以参见现在的美国市场。

   三:行业现状;

   15年运维经验老兵对公有云的深度剖析

   首先我们要阐明市场上那么多卖云主机的,哪些才是我们要讨论的公有云,业内大牛沙克老师提到过云计算5大特征,如果一个都不具备,那就是卖虚拟机的,不算。本文讨论的公有云主要包含互联网公司、创业型公司、华为联想之类厂商、CDN厂商。

   做技术的都知道,云计算本身并不是一种新技术,而是把很多运维技术结合起来做成一个整体的平台,只能算是一种新的业务模式。运维技术大概经历了5个时代:手工时代、脚本时代、工具小平台时代、自动化大平台时代、云平台时代,未来也许是虚拟机器人时代。大多数中小互联网公司及大部分企业都还处于前3个时代,技术水平和思维跟不上,云平台一些新技术和理念还接受不了,先进的东西往往最后妥协成一个四不像。现实中我们经常看到很多互联网用户还是把云主机当物理机来用,8核32G配置,独立外网ip,原有运维流程和脚本最好丝毫不变,企业用户就更不用说了。

   简单来说,一方面,公有云在稳定性、安全性等方面还没有获得用户信任,另一方面,一些理念又太超前,用户接受不了。先获取信任,再来说服用户接受。

   企业市场,华为、联想们有天然优势,如果能补上互联网平台运营的短板,将切得最大块蛋糕,互联网公司从来都不擅长做企业市场,打法完全不一样。

   目前公有云分为3类:产品型、平台型、生态型,未来产品型将没有竞争力。创业型公

   司2年内只能是产品型,要尽快往平台型转。如360、通联数据,都属于平台型,现在跟进也不算晚。

   四:还有机会吗?

   技术上,越往后越有优势,所以偏技术思维的容易产生错觉:我要是现在创业,十几个人几个月就能做出一个比市场上所有平台都好的公有云,成功概率岂不大大的!?真的是这样吗?

   先说自主研发技术,周期太长,肯定来不及了;开源架构基本就是openstack了,有些问题反正前期规模没到所以还不是问题,有些还真就是问题,业内对 openstack公有云都尚存疑虑、信心不足,用户又怎么敢用?中心化下,网络节点的单点瓶颈、消息队列的性能瓶颈、LB(HAProxy)的性能瓶颈、分布式块存储的稳定性等等,上规模后都是大问题。详细的“技术分析”见后面第五节。运维这个领域永远都是谨慎、稳重第一,获取用户的信任之前,你能吸引到的最大用户群也就是不很看重稳定性的个人用户和创业群体,商业公司没人敢冒这个险。

   再说市场层面,青云之后,再难有大的创新,IaaS的创业门槛一下就提高了很多,甚至可以说大门都快关上了。没有先入优势,也没有重大创新,只是微创新、好一点,市场是不会给你创业机会的。

   所以我认为在2013年底创业大门就已经关闭了,对应2014年上半年要发布产品,因为2013年底2014年初公有云行业有几个重大变化:青云立足、金山云发布、腾讯云对外发布、阿里云成为核心战略获得全力支持。

   真想创业该考虑PaaS行业,或给IaaS用户提供服务,比如深圳有一家叫“多备份”,由于本文只说IaaS就不展开了。

   创业公司大忌:完全模仿。正所谓:学我者生,似我者死。技术上的差别用户看不见、也不关心,把握准IT行业、运维技术发展的趋势,在技术保障的基础上,产品、商业模式上必须要有重大创新,能真正解决用户关心的一些问题,至少要有一个明显的创新和优势能打动用户,凭此打造切入点。在产品、商业模式、界面等用户看得见的地方全面模仿,无异于替别人宣传了。

   五:产品和技术分析;

   openstack正在快速成熟,再有2个版本就差不多了,出于利益会员们都想推广自己的plugin,但各方角力下,谁也别想当主角,小厂力单势薄,有能力的没意愿,有意愿的没能力,导致开源免费的产品进展缓慢,现实中,大厂还是在openstack下集成自己的硬/软件,小厂只能凑合着用尚不成熟的免费产品,也有少数具备技术实力的,对openstack做些二次开发、不成熟的模块替换掉或改架构。

   openstack原生态架构下的免费实现方式,做公有云还是不行。抗openstack大旗讲故事、拉投资,获得技术圈内叫好,都没问题,但要拿出来商用做公有云,目前还差很多。目前成功的案例都是做了二次开发,或用了硬件。

   openstack做私有云很成熟了,因为对存储和网络要求没那么高,业务也单一,分布式搞不定用本地也行,网络大二层搞定,网络节点就管理个ip、还只是内网,外面独立搭建一套lvs负责外网的负载均衡、端口转发及nat,没有性能瓶颈,单个集群规模也大不了,涉及到的技术在BAT之类公司里都有很成熟的经验和方案,关键是自己的业务熟悉,满足需求,又把老板关心的成本降下来了,就ok啦,甚至有家公有云都是这么实现的。

   I/O性能(主要指随机写):本地盘没什么好说的,拼硬盘成本。分布式较复杂,技术含量高,最好要能保障150IOPS。我们的内部游戏云,采用1块ssd bcache ceph,能提供接

   近于本地ssd方案的性能,这个解决方案应该是首创,还没查到案例。

   分布式块存储:开源界已是ceph一统天下,BAT都是基于原有自主研发的系统,改一下拿过来用,未必比ceph好,关键自己研发的东西熟悉啊,出了问题有人解决、有人负责,还会持续改进呢。ceph也是很有争议的,有人说很稳定很好用、成功案例也有好几个,但更多的人说的是各种问题不好用,测试没通过而放弃,惨痛的教训也有。那么ceph到底好不好用呢?我是这么认为的:想用ceph,必须要有深厚的分布式存储系统经验,至少有专业的分布式存储运维工程师长时间对ceph的研究和测试,选对版本、调整好策略、Cgroup隔离好,只要功夫做到家,肯定能用好,出问题也不怕;而大多数人并无分布式存储方面的经验和积累,仅凭看看文档、请教别人,拿过来就想用,劝你还是趁早放弃,否则迟早出问题,老老实实用本地盘吧。

   LB:主要谈四层。分lvs和HAProxy两种,BAT之类技术实力雄厚,而且有现成的方案,都是用lvs fullnat,真实ip也很好的解决了(不是vm内打linux内核补丁,在ovs层面解决),用万兆网卡可以抗巨量的pps,技术上的优势就不赘言了,我想提的是它带来的巨大的成本优势,以别人1/10的价格,还能做到更高的毛利率。HAProxy相比而言,转发性能先打个7折,抗压能力又差一个数量级,创业公司技术和人力有限,只能选这个容易实现的,小规模也凑合能用,HAProxy具体的实现方式大概有2种,1是中心化,一台物理机上配一堆实例,2是直接给一个独立的低配置vm,安装HAProxy。

   LB/RDS/Cache:这类PaaS产品,能充分体现大公司的技术优势。不要看宣传,测下产品就能感觉出明显的差距,最简单表面比较下产品方式和价格也能看出。

   SDN:VPC如今已是标配,尤其是混合云已成为企业首选。现阶段,功能比性能更重要。

   CDN:技术不是核心,资源和服务是关键,BAT们目前和CDN厂商还是有一定差距,创业型公司还是找CDN厂商合作吧。

   SLA:做运维的都知道,只要有运营商冗余和全局负载均衡,99.99%的服务可用性是互联网标准,没有的话,降到99.95%,做不到的话,都不合格,不管是运维水平还是业务系统的原因。数据可靠性,6个9迟早丢数据,10个9理论上足够安全,但尚需时间考验,重要数据还是要在自己的数据中心或跨服务商做个备份。

   另外想特别提一下传统运维的趋势:网络、IDC、系统、安全等运维职位将大减,尤其中小公司里这类职位将消失,从事这方面工作的要早做打算,去大公司,或干脆去做云计算。op受影响较小(个别职位影响大,比如dba),主要是工作方式会改变,要学会基于云平台开展业务运维工作,如何用好云平台的产品,会对运维开发有较高要求。

   六:计费模式;

   企业及大部门互联网用户的业务,弹性并没有那么高的要求,能做到按天甚至按月就行了,也就是移动互联网创业大潮下,app、手游等周期短、讲究快的业务,弹性要求较高,但做到按天也能接受,所以按秒计费的模式真正的好处在于,资源规划、随时调整配置、研发/测试、autoscaling等方面带来极大的灵活方便,成本上优势并无多大意义。另一方面,按秒计费很容易招来大量个人用户,只买1个最低配的云主机,每天开几小时,几百块能玩1年。别看BAT包年包月,其实也能做到按天结算,另外也有按量计费,不过价格总体是包月的3倍,这个一般人不用,特殊用户特殊需求才会花这个大钱,12306、电商大促之类,1年才几次,但每次量很大,几百台云主机和巨大带宽不是创业型公司能提供的。最后,成本只是老板关心的,具体执行的运维哪个愿意这么折腾去省钱啊,累的是自己,省的钱又不分给我,折腾越多还越容易出错呢。

   七:用户群分析;

   企业/政务市场大概是互联网市场的10倍。企业IT成本占比只有个位数,成本不是他们最关心的,相比原来的IOE系统,云平台至少能降低40%成本,关键是要能帮他们优化IT系统、提升效率。具体的运维人员更关心的是功能和稳定性,要方便好用,还不能带来额外的风险和麻烦。这也是为什么混合云会成为主流。

   互联网IT成本是重头,会更看重成本,对功能要求没那么高。

   创业用户群只是一个切入点,而不是盈利点,叫好不叫座。

   八:CDN;

   某公有云,从CDN厂商按带宽计费20块/M采购进来,再按流量计费卖给用户,价格基本合采购成本的1.8倍,不算复用毛利率都已经近50%了,就是个中介、开发量很小,毛利率等于净利率;再说说复用率,90%以上的业务,按带宽计费的,复用率很低,移动互联网下的app更新业务,基本都走按流量计费,这类业务复用率很高,所以总体复用率决定于用户群体的结构/业务性质,保守估计这家在1:(1.5~2),按150G带宽采购量来算,初略估算年赚超过 6000W。不是暴利是什么?有人问,20块怎么可能,一线CDN厂商报价都是40块以上。100多G的量(有些二线CDN的总带宽也不过如此),这就是谈判筹码!很讽刺吧,辛辛苦苦做技术含量高的云平台,就是迟迟不赚钱,突然发现CDN舒舒服服赚大钱。

   另外,如果没有CDN业务,也会给BGP带宽带来更多压力,而这块又是卖的越多亏的越大,所以有一定规模后,CDN业务很关键,只要有10个G,就能和 CDN厂商谈,然后尽量把用户从BGP引导到CDN。补充CDN业务后,业务范围都扩大了,主机托管这类IDC的活都能做,圈用户卖CDN赚钱。这就是大平台的好处。

   大厂已经自建CDN,BAT都开始往外卖了,用不了几年,大厂在技术、资源、服务、价格优势上会全面超越CDN厂商。以流量大户:视频为例,一大半属于 BAT阵营,剩下有点规模的也都有自建CDN。最近微博把30%流量切到了阿里云CDN,这就是一个重要标志。小用户CDN厂商以前又看不上,现在想看上也迟了,都被云平台圈走了。为什么CDN厂商现在还没有危机感呢,主要是整个互联网大发展的趋势下,CDN的市场增量很大,几年内各家的绝对值还是增长的,但相对的市场占比肯定是不断缩小。

   而且以BAT的巨无霸体量,一旦扑进这个CDN这个行业,相当于鲨鱼进入池塘,CDN第一名的年盈利才5亿RMB,一旦正面竞争如何抵挡?有可能1年内阿里云CDN就到第一,CDN行业要洗牌了。未来某种程度上CDN只是公有云的一项服务。

   CDN厂商的地位被弱化是必然的,如何升级转型得以保持一定的行业地位,避免沦为云计算时代产业链末端、给云平台打工赚辛苦钱。CDN一直以来都是以资源和销售为核心,技术和人才基本排在最后,靠关系和变相垄断舒舒服服赚钱惯了,而云计算是以技术和人才为核心的,要升级转型太难了。2条路:1、成立1个独立于原有管理体制外的子公司;2、直接收购1家互补的创业型公司,导入资源和用户,花几个亿都值,股票1个涨停板就全回来了,更大的意义请参见百度收购 91助手成功案例。

   申明:避免得罪人,文中尽量不提具体公司名称,而且隐去一些比较敏感的细节。本人也不是云计算行业人士,与各利益方无一毛钱利益关系。

   本文深度完全算不上,最多有些广度。不当之处请各位指正,不足之处请补充。

   砖抛出来了,看能不能引出玉。

建议继续学习

  1. 如何成为OpenStack工程师 (累计阅读 15,880)
  2. MacBook Air与工作效率 (累计阅读 10,600)
  3. 整合搜索,阿拉丁,云计算,以及框计算 (累计阅读 4,821)
  4. 阿里巴巴集团去IOE运动的思考与总结 (累计阅读 4,541)
  5. 做云这三年 (累计阅读 4,501)
  6. 七年工作,几个故事 (累计阅读 4,300)
  7. 一个开发眼中的运维 (累计阅读 4,280)
  8. 日本的 Perl 项目 CloudForecast 分布样式监控系统 (累计阅读 3,820)
  9. Amazon AWS云计算服务简介 (累计阅读 3,760)
  10. 对职业发展问题的终极回答 (累计阅读 3,681)