一、问题一：节点故障如何快速恢复服务?

在 Kubernetes 集群中，当某个节点发生故障时，通过以下机制快速恢复服务：

1、节点故障检测

节点控制器（Node Controller） 定期检查节点状态（默认每 5 秒一次）。
若节点连续不可达超过 --node-monitor-grace-period（默认 40 秒），节点会被标记为 NotReady。
持续不可达超过 --pod-eviction-timeout（默认 5 分钟），节点上的 Pod 会被驱逐。

2、污点（Taint）自动标记

节点故障后，Kubernetes 会自动为故障节点添加污点：

“`shell

kubectl taint nodes <故障节点名> node.kubernetes.io/unreachable:NoExecute

“`

效果：
NoExecute：立即驱逐该节点上未配置容忍的 Pod。
NoSchedule：阻止新 Pod 调度到故障节点。

3、Pod 驱逐与重新调度

驱逐策略：
Pod 被驱逐后，Kubernetes 调度器会根据 Pod 的调度规则（如亲和性、资源请求）将其重新分配到健康节点。
示例示意图：
- 正常状态：Pod 均匀分布在 4 个节点（Node01~Node04）
- 故障状态：若 Node01 故障，其上的 Pod 被驱逐并重新调度到 Node02、Node03、Node04。
关键配置：
容忍（Toleration）：若希望某些关键 Pod 在节点故障后暂时保留，可配置容忍污点：

yaml tolerations: - key: "node.kubernetes.io/unreachable" operator: "Exists" effect: "NoExecute" tolerationSeconds: 3600 # 容忍时间（秒），超时后驱逐

4、服务快速恢复的优化策略

Pod 反亲和性（Anti-Affinity）

yaml affinity: podAntiAffinity: requiredDuringSchedulingIgnoredDuringExecution: - labelSelector: matchLabels: app: my-app topologyKey: "kubernetes.io/hostname"