最新发布第29页
Kubernetes落地的真实挑战:复杂性、可观测性与团队协作成本-AI运维探索者

Kubernetes落地的真实挑战:复杂性、可观测性与团队协作成本

一、Kubernetes 自身复杂性是第一道门槛 Kubernetes 的学习成本很高,原因主要来自两个方面。 首先是概念多。Pod、Deployment、Service、Ingress、ConfigMap、Secret、StatefulSet、DaemonSet、...
Kubernetes节点维护实战:taint 与 cordon或drain 两种下线流程对比-AI运维探索者

Kubernetes节点维护实战:taint 与 cordon或drain 两种下线流程对比

一、K8s节点维护流程 当 Kubernetes 的节点需要进行下线维护时,此时需要先把该节点的服务进行驱逐和重新调度。 此时需要根据实际情况判断是直接驱逐还是选择重新调度,比如某个 Pod 只有一个副...
Kubernetes节点维护不中断实战:taint、drain 与 PDB 组合使用-AI运维探索者

Kubernetes节点维护不中断实战:taint、drain 与 PDB 组合使用

一、问题三:节点维护如何不影响服务? 在 Kubernetes 集群中,节点维护(如版本升级、系统升级、漏洞修复)时,可通过以下策略确保服务不受影响: 1、标记节点为不可调度 * **添加污点(Taint)...
Kubernetes节点标签与nodeSelector实战-AI运维探索者

Kubernetes节点标签与nodeSelector实战

一、Node标签概念 每个node节点默认会有很多标签,标签在日常工作中就类似我们的一个标识;看到标签 就能晓得这台node节点的主要用处; 1.1 为节点添加标签 查看节点 为node节点加上核心应用的...
Kubernetes节点故障后如何快速恢复服务:污点、驱逐与重新调度-AI运维探索者

Kubernetes节点故障后如何快速恢复服务:污点、驱逐与重新调度

一、问题一:节点故障如何快速恢复服务? 在 Kubernetes 集群中,当某个节点发生故障时,通过以下机制快速恢复服务: 1、节点故障检测 - **节点控制器(Node Controller)** 定期检查节点状态(...
Kubernetes节点宕机后如何加速Pod漂移恢复-AI运维探索者

Kubernetes节点宕机后如何加速Pod漂移恢复

一、节点宕机快速恢复服务 > 说明:当节点故障时,k8s集群中默认需要等待5分钟,才能进行漂移。 1.1 环境准备 1、清除node02节点上的污点 2、创建测试应用 应用 1.2 节点宕机快速恢复服务 1...
Kubernetes节点反亲和实战:让计算服务避开低性能机器-AI运维探索者

Kubernetes节点反亲和实战:让计算服务避开低性能机器

一、计算服务不部署到低性能机器 假如已知集群中有一些机器可能性能不佳或者其他因素的影响,需要控制某个服务尽量不部署至这些机器,此时只需要把 operator 改为 **NotIn** 即可: 比如计算服...
Kubernetes节点亲和实战:计算服务优先部署到高性能机器-AI运维探索者

Kubernetes节点亲和实战:计算服务优先部署到高性能机器

一、计算服务部署到高性能机器 假设集群中有一批机器是高性能机器,而有一些需要密集计算的服务,需要部署至这些机器,以提高计算性能,此时可以使用节点亲和力来控制 Pod 尽量或者必须部署至这...
Kubernetes节点上线和下线:节点下线-AI运维探索者

Kubernetes节点上线和下线:节点下线

一、下线之前,先在master01节点上创建一个测试Deployment 查看pod 二、在master01节点上驱逐下线节点node03上的Pod,并设置不可调度 再次查看Pod,观察到node03节点上无Pod运行 三、在master01...
Kubernetes节点上线和下线:新节点上线-AI运维探索者

Kubernetes节点上线和下线:新节点上线

一、基本环境配置 1、修改主机名 2、修改host文件 (1)新节点安装vim工具,如果安装过请忽略 (2)每台机器上修改hosts文件 3、安装yum源 (1)在新节点上执行以下命令配置默认yum源并安装依赖 (2)在...