云计算时代：运维人员会踩到哪些坑？

运维派 2015-06-01 10:05:21 累计浏览 4,292 次

本机暂存

内容概览

这篇整理自ChinaUnix论坛热议的文章，汇集了多位一线运维人员的实战经验，直面云计算时代运维岗位的核心挑战。讨论焦点并非空谈理论，而是紧扣具体痛点：当服务器从百台暴增至万级，自动化运维如何落地？虚拟化资源池化后，故障定位为何反而更难？文中网友分享了Zabbix、Nagios、Cacti等开源监控工具的部署心得，也直言云磁盘I/O变慢往往是资源争抢或自身程序问题所致，解决方法需“对症下药”。

更关键的是职业转型的讨论。有网友犀利指出，跟不上自动化运维趋势的“手工作坊式”运维将面临淘汰；也有人强调，云平台运维本身创造了更高价值的新岗位，技能要求水涨船高。关于混合云服务商的选择，讨论也具体到阿里云、腾讯云乃至自建平台的性价比权衡。整场对话没有简单结论，而是呈现了云时代运维复杂性的真实切面——技术工具更迭、故障排查逻辑变化与个人技能升级，这三者构成了运维人员必须同时应对的挑战。

近期在ChinaUnix论坛有一场讨论，标题是——云计算时代：运维人员会踩到哪些坑？

整个讨论过程非常活跃，大概有50个答复，运维派这就给大家整理了一些讨论的优质内容分享给大家。

=============================================

背景：

在云计算领域，运维人员就是这样的存在，小到一条短信，大到一次网上交易，只要和IT相关的业务就需要这些运维人员，没有他们在背后的支持，生活是会出大乱子的。

可是到了云计算时代，不少人说IT人要下岗了，是否真会如此呢？云计算的出现是否会使得整体行业对运维的需求萎缩了呢？

面对传统的几十台服务器时，运维人员还能手动处理一些问题，但是当机器发展到1000台、甚至是10000多台时，自动化运维必须得派上用场了。企业根据业务来分配和释放资源，运维人员不仅需要一个强大的控制系统来控制对网络流量、CPU利用率、进程、内存等等节点，还需要一个资源管理系统来管理这些资源的生命状态，还有权限管理，就像AWS的IAM一样。

话题讨论：

1.云计算时代，运维人员是否会面临着失业的风险？

2.传统的数据中心里，设备是真实存在的，管理起来相对简单，而虚拟化技术将这些资源都“池化了”，一旦故障发生，需要检查排除，云时代下您觉得在运维管理方面存在哪些痛点困扰呢？

3.对云计算而言，一大堆机器和设备放在一起，安全成为了一大挑战。有哪些监控工具可以实现对资源的管理，对网络流量、CPU利用率、进程、内存等状态监控呢？

4.在使用云服务，比如阿里云、腾讯云等，磁盘用到一定时候就会不稳定，很莫名其妙，磁盘I/O会变慢，到底是什么原因？您是否遇到过类似的经历？当时是如何解决的？

5.考虑到安全性问题，大多数企业都会选择混合云，选择IBM的云，稳定但贵，您比较看好哪些云服务提供商？为什么？

下面就来看看运维的小伙伴们都是怎么回答的？

网友stukirito的回答：

1.云计算时代，运维人员是否会面临着失业的风险？

以上说的是整体的国内运维趋势如今云计算时代对运维保障的要求自然更上一个台阶失业不失业完全取决于自己.

既然使用到了虚拟化技术那这个是具体问题具体分析。

可监控的软件多的去了不过我相信目前大多数企业开始使用开源软件的多譬如 catic、nagios、zabbix等都可以关键在于这些监控软件如何适应你现有环境那取决于运维对企业业务的熟悉度对服务器环境的熟悉度等才能因地制宜的去部署构建相关的监控环境并根据相关反馈给的数据进行分析判断

如果是托管类的直接找云服务商去看如果是私有云就要慢慢找原因了

5.考虑到安全性问题，大多数企业都会选择混合云，选择IBM的云，稳定但贵，您比较看好哪些云服务提供商？为什么？

这个比较难说目前大多数企业选择混合云就是担心云服务提供商提供的服务会有中断所以看企业自身需求做选择吧

网友stay_sun的回答：

1.云计算时代，运维人员是否会面临着失业的风险？

在it圈里技术的革新总是很快的，当你跟不上技术的发展的时候。你永远面临着淘汰。原来的vb，daifei，等等。传统的运维注定被淘汰。自动化运维会持续发展

新的数据中心虽然池化了，但是他对应的还是物理主机。检查的难度更大。但是对于单点的故障解决就简单多了。我觉得，云的运维最有难度的是平台的故障。很不好解决

最好的方法是调用系统的命令来收集你需要的数据。完成相应的问题。达到资源的最大化。

运用这种平台云服务器，及本可以保证使用。偶尔这种问题，也是没有办法的。毕竟他是寄宿在实体机上面，多个主机总会有资源的冲突。找供应商。解决问题吧。没有办法的

5.考虑到安全性问题，大多数企业都会选择混合云，选择IBM的云，稳定但贵，您比较看好哪些云服务提供商？为什么？

我还是考虑自建云平台。作为互联网公司。这个东西使用太贵了

网友pure_lotus的回答：

1.云计算时代，运维人员是否会面临着失业的风险？

不会，云平台也需要有人运维，云计算时代产生的云平台运维新岗位比普遍运维更重要，工资还高了。但对于一般性的非IT企业的某些基础架构类IT运维人员，是存在失业的风险，需要加紧转型。

资源都虚拟池后后，故障定位和排除明显是痛点，很容易牵一发而动全身；另外自动化运维管理本身的可靠性要求也更高；还有运维是如何满足客户的安全审计要求也是难题。

多吧，一般在开源基础上做订制开发，而且要分层级，平台层和应用层要开分开。

原因不明，猜测可能当时云服务厂商由于资源达到临界点，在调整后台部署或者做整体性的升级维护，造成临时性的IO瓶颈。

解决办法就是打电话或者等，有钱也可以选择远程冗员的硬盘空间备份，临时切换到备份空间来操作。

5.考虑到安全性问题，大多数企业都会选择混合云，选择IBM的云，稳定但贵，您比较看好哪些云服务提供商？为什么？

国内嘛，估计以后微软云和阿里云前景更好一些。主要是平衡成本和服务质量，微软自有软硬件产品比较多，使用顾客拥有成本比较低；阿里的中小客户基数大。

网友xuexiaogang的回答：

1.云计算时代，运维人员是否会面临着失业的风险？

如果有自动化运维的，那么运维人员的要求更加高，而且压力也越来越大，技能还要提升。如果没有自动化运维，那么运维人员不仅不会失业，而且人员还要不断增加。

全面监控难度大，而且问题排查不容易。很多是虚拟化来完成的，内部出现问题不好查也不好定位。

扇区，块等都会产生碎片或者逻辑故障等。需要的是经常的维护和检查。空间回收和坏块的处理尤为重要。

5.考虑到安全性问题，大多数企业都会选择混合云，选择IBM的云，稳定但贵，您比较看好哪些云服务提供商？为什么？

百度云、360云、新浪云还有七牛等都是不错的云存储供应商。在很多技术交流上都和他们接触过并且使用过。感觉还可以。

网友“淡定与洒脱”的回答：

1.云计算时代，运维人员是否会面临着失业的风险？

还奉行老思路吃老本的大龄运维，其实已经相当危险了，存在感将不断下降，手工作坊式的低技术含量运维将越来越out。建议年轻入行的运维，一定要多学点开发技术，光会用几个开源工具，养不起老婆孩子的。

如果是公有云，那完全没脾气，只有选一个服务好的厂家了。如果是私有云，自己可以把原理性的东西研究清楚，提高troubleshooting能力。

saltStack、puppet、nagios、cacti、zabbix。。。现在有一堆开源监控和配置管理工具了，但问题是，如果只是会用这些工具，运维的价值何在？作为一个有理想的运维，应该搞点自己的小工具，成为这些工具的补充。

有冗余，不用怕，往往重启后就恢复了。具体原因，还得问厂家。

5.考虑到安全性问题，大多数企业都会选择混合云，选择IBM的云，稳定但贵，您比较看好哪些云服务提供商？为什么？

看企业老板是什么思路，有的不差钱，有的很差钱。贵的一般都好一些。

网友forgaoqiang的回答：

1.云计算时代，运维人员是否会面临着失业的风险？

这个是肯定滴，现在的趋势就和农民种地类似，整体的岗位数量在下降，每个人管理的“田地”(服务器等IT资源)在增加。小型企业的运维人员需求(哪怕是兼职的网管)也在减少，小公司会把大部分的IT运维迁移到一些公有云上，管理简单，成本也可以接受。中型企业可能也会用公有云和部分自己的服务器，至于大型公司，基本上都在维护自己的私有云，几乎不会使用其它公司的服务。

所以整体来说，工作岗位数量在下降，但是对于运维人员的技能要求却在上涨，运维开始成为高大上的职业，只有真正具有高技能的运维人员不会面临失业，而是面临涨工资。

个人感觉云时代的时候更像是一个统计学的结论，只要集群整体运行正常就算是正常了，对于“池”中的某条“鱼”(硬件设备)死了，可以短暂的不用去理会，定期替换维修即可。云时代下大家都是看着各种“仪表盘”来进行管理，很少关心底层的硬件，经过层层抽象导致的结果就是排查难度上升，需要一层一层的去检查，最终故障很有可能发生在最下一层的物理层次上。

工具非常多，很多商业化的工具、开源的管理工具等等，比较经典的仍然是 Zabix、Cacti 等开源监控程序，同事Puppet等管理工具也具有监控功能，这些工具都是开源的，能够根据自己的需要进行定制，很多支持插件模式，可以使用很多其它人已经开发好的插件完成一些个性化的需求，完整整个运维的监控工作。

是的，这个情况的确有遇到，很多时候是因为自己的业务系统出问题了，整体来说感觉阿里云还是比较稳定和公正的，磁盘和CPU资源限制的比较准确，作为IaaS的基础设施，它们除了对硬件性能进行限制之外，剩下的都是客户的OS操作系统在处理自己的业务。对于I/O变慢的情况，好多都是自己的程序过度使用磁盘I/O造成的。

5.考虑到安全性问题，大多数企业都会选择混合云，选择IBM的云，稳定但贵，您比较看好哪些云服务提供商？为什么？

现在国内有多种云服务提供商，有些针对性的提供对消息语音队列，有些是针对存储，有些则能够提供平台托管，有些就是提供IaaS级别的，目前公司主要采用的服务是阿里云的，也考虑过腾讯云，看上去目前阿里是技术上做的最好的，SAE、BAE等平台不太适合我们的业务。对于消息队列还是比较看好语音云这家提供商。至于基础设施类的，个人感觉还是vmware或者xenserver的比较靠谱，但是费用高昂，中小型公司不会采用。

对于中大型企业应该会采用商用的私有云服务，但是对于阿里、腾讯、百度，它们应该是完全自主的云管理系统。

=============================================

文章由运维派整理自http://bbs.chinaunix.net/thread-4170556-1-1.html

同分类推荐文章

从零重建 macOS 开发机：可复现的环境初始化流程（2026-06-14 20:36:00）
百度物理网络监控工具开源第二弹：毫秒级监控工具 baize，让你的网络问题无处遁形（2026-06-11 08:10:28）
How to Set Up Homebrew Tap for Private CLI Tools: A Complete Guide （2026-05-27 02:13:03）

查看更多 DevOps 文章 →

建议继续学习

WEB系统需要关注的一些点（累计阅读 18,219）
批量添加主机到cacti+nagios的监控报警系统中（累计阅读 14,993）
Linux命令行里的“瑞士军刀” （累计阅读 11,585）
rsync同步的艺术（累计阅读 9,599）
应该知道的Linux技巧（累计阅读 8,947）
你可能不知道的Shell （累计阅读 8,314）
完全用命令行工作 -- 一年后的思考（累计阅读 7,468）
让我们来谈谈分工（累计阅读 6,380）
请手动释放你的资源(Please release resources maunally) （累计阅读 5,324）
rsync自动输入密码实现数据备份（累计阅读 5,109）