要不要再学学下面的文章?
优雅地管理内网集群 (wasteland.touko.moe)
本文主要介绍了我在对内网集群进行管理的时候遇上的和解决的问题,包括统一控制,装机脚本,堡垒机,内网穿透等一系列问题。
by @技术头条 2023-11-30 23:37 查看详情
如何在 Kubernetes 集群中设置动态 NFS 配置 (linux.cn)
在这篇文章中,我们将向你展示如何在 Kubernetes(k8s)集群中设置动态 NFS 配置。

Kubernetes 中的动态 NFS 存储配置允许你按需自动为 Kubernetes 应用配置和管理 NFS(网络文件系统)卷。它允许创建持久卷(PV)和持久卷声明(PVC),而无需手动干预或预配置存储。

NFS 配置程序负责动态创建 PV 并将其绑定到 PVC。它与 NFS 服务器交互,为每个 PVC 创建目录或卷。
by @技术头条 2023-07-30 17:34 查看详情
超大规模数据库集群保稳系列之一:高可用系统 (tech.meituan.com)
基于过去多年在大规模数据集群保稳方面的实践经验,我们希望能够跟业界进行一些技术交流,美团技术团队举办了第75期技术沙龙。我们邀请到了美团研究员赵应钢担任出品人,同时请邀请到张洪、王占全、蔺瑞超、沈裕锋等4位数据库方向的4位技术专家,围绕进攻、防守、⾃愈、演练等几个方向展开分享。本文系超大规模数据库集群保稳系列的第一篇文章。
by @技术头条 2023-07-23 12:30 查看详情
系统运维 | 如何在 RHEL 9/8 上设置高可用性 Apache(HTTP)集群 (linux.cn)
在本文中,我们将介绍如何在 RHEL 9/8 上使用 Pacemaker 设置两节点高可用性 Apache 集群。

Pacemaker 是适用于类 Linux 操作系统的高可用性集群软件。Pacemaker 被称为“集群资源管理器”,它通过在集群节点之间进行资源故障转移来提供集群资源的最大可用性。Pacemaker 使用 Corosync 进行集群组件之间的心跳和内部通信,Corosync 还负责集群中的投票选举(Quorum)。
by @技术头条 2023-06-24 23:31 查看详情
超大规模数据库集群保稳系列之三:美团数据库容灾体系建设实践 (tech.meituan.com)
本篇是美团超大规模数据库集群保稳定系列的第三篇,重点介绍一下美团数据库的容灾体系建设实践。主要内容包括业务架构、数据库容灾平台能力建设、演练体系建设、以及这些建设取得的一些成果,最后也会分享一下容灾建设的未来思考。希望对大家能够有所帮助或者启发。
by @技术头条 2023-06-24 09:22 查看详情
超大规模数据库集群保稳系列之二:数据库攻防演练建设实践 (tech.meituan.com)
本文整理自美团技术沙龙第75期的主题分享《美团数据库攻防演练建设实践》,系超大规模数据库集群保稳系列的第2篇文章。本文首先介绍了美团当前数据库运维现状、遇到的问题,以及为什么要建设数据库攻防演练平台;其次,分享当前数据库攻防演练平台的具体实践;第三部分会介绍数据库攻防演练在美团内部的落地情况;最后,会结合混沌工程的成熟度标准和成熟度等级,分享我们对未来工作的一些规划。
by @技术头条 2023-06-24 09:22 查看详情
提升资源利用率与保障服务质量,鱼与熊掌不可兼得? (tech.meituan.com)
美团Hulk调度系统团队在集群服务质量与资源利用率运营的长期落地实践中,基于业务实际场景,自主设计研发了集群负载自动调控系统(LAR)以及配套的运营体系,在提升集群整体资源利用率的同时保障了业务服务质量。本文介绍了LAR的设计理念、基本框架以及核心设计,并结合在线和混部场景应用展开思考,并展示了部分落地成果。希望能为从事相关工作的同学带来一些启发或者帮助。
by @技术头条 2022-09-13 23:27 查看详情
快速构建Ceph集群 (sunqi.me)
虽然安装环境并不是属于研发人员的本质工作,甚至有些研发人员抵触一些环境的搭建工作。在一些大型企业中,由于分工明确,造成了一些研发人员在这一方面能力的严重缺失。其实环境安装对于开发人员从整体上掌握软件架构师非常有益的,同时随着云计算、云原生的发展,对于DevOps的软件开发模式也越来越被企业接受,可以预见的是,未来DevOps将是所有研发人员必备的技能之一。

本文主要目标是帮助研发人员用最小成本搭建一套Ceph环境,为了降低搭建成本,使用了Ceph Deploy及国内源加速安装速度。我们选择目前Ceph Octopus最新的稳定版本进行安装。
by @技术头条 2021-04-26 07:49 查看详情
在大规模 Kubernetes 集群上实现高 SLO 的方法 (developer.aliyun.com)
随着 Kubernetes 集群规模和复杂性的增加,集群越来越难以保证高效率、低延迟的交付 pod。本文将分享蚂蚁金服在设计 SLO 架构和实现高 SLO 的方法和经验。
by @可耐芊小仙女 2020-11-09 16:16 查看详情
阿里云上万个 Kubernetes 集群大规模管理实践 (yq.aliyun.com)
在 2019 年 双11 中,容器服务 ACK 支撑了阿里巴巴内部核心系统容器化和阿里云的云产品本身,也将阿里巴巴多年的大规模容器技术以产品化的能力输出给众多围绕 双11 的生态公司。通过支撑来自全球各行各业的容器云,容器服务沉淀了支持单元化全球化架构和柔性架构的云原生应用托管中台能力,管理了超过 1W 个以上的容器集群。本文将会介绍容器服务在海量 Kubernetes 集群管理上的实践经验。
by @可耐芊小仙女 2019-12-12 16:35 查看详情