最新发布第101页
容器:为什么要使用容器-AI运维探索者

容器:为什么要使用容器

一、提升效率。 1.1 提升效率 容器可以快速移植,这就意味着企业在开发、部署阶段快速搭建开发、测试环境,并快速部署到生产环境里。 1.2 节省资源 一台物理机上可以运行几百个甚至上千个容器,...
Kubernetes 节点调优:kubelet 状态更新、驱逐与原地升级-AI运维探索者

Kubernetes 节点调优:kubelet 状态更新、驱逐与原地升级

一、参数优化 --max-pods:kubelet 可以运行的最大 Pod 数量。 --image-pull-progress-deadline:配置镜像拉取超时。 --eviction-hard 和 --eviction-soft:这两个参数用于定义 kubelet 中 Pod ...
Pod状态排查、镜像拉取与重启策略-AI运维探索者

Pod状态排查、镜像拉取与重启策略

一、Pod常见状态与排查方法 参考链接: [Pod生命周期](https://kubernetes.io/zh-cn/docs/concepts/workloads/pods/pod-lifecycle/) Pod 的 `status` 字段是一个 [PodStatus](https://kubernetes...
Nginx代理入门:正向代理、反向代理与proxy_pass快速上手-AI运维探索者

Nginx代理入门:正向代理、反向代理与proxy_pass快速上手

一、代理到底是什么 这里先把“代理”讲得很生活化: 代理就像外卖平台、中介或代办服务,用户不直接和目标打交道,而是先经过中间人。 在 Web 场景里,这个“中间人”通常就是代理服务器。 如...
Kubernetes节点上线和下线:新节点上线-AI运维探索者

Kubernetes节点上线和下线:新节点上线

一、基本环境配置 1、修改主机名 2、修改host文件 (1)新节点安装vim工具,如果安装过请忽略 (2)每台机器上修改hosts文件 3、安装yum源 (1)在新节点上执行以下命令配置默认yum源并安装依赖 (2)在...
Pod状态排障指南:Pending、ImagePullBackOff、CrashLoopBackOff与OOMKilled怎么查-AI运维探索者

Pod状态排障指南:Pending、ImagePullBackOff、CrashLoopBackOff与OOMKilled怎么查

一、先理解 Pod 常见状态 日常最常见的 Pod 状态包括: - `Pending` - `Running` - `Succeeded` - `Failed` - `Unknown` - `ImagePullBackOff` / `ErrImagePull` - `CrashLoopBackOff` - `OOMKi...
云原生十二要素与CNAI入门:应用最佳实践与AI结合路径-AI运维探索者

云原生十二要素与CNAI入门:应用最佳实践与AI结合路径

一、为什么要用十二要素来审视云原生应用 云原生十二要素本质上是一组关于应用设计、交付和运行方式的实践准则。 它的价值在于帮助我们回答三个关键问题: - 应用是否足够标准化,能否稳定交付...
SSH用户的RADIUS认证和授权配置-S7506E-AI运维探索者

SSH用户的RADIUS认证和授权配置-S7506E

一、组网需求 通过在作为NAS的Device上配置远程RADIUS认证、授权功能,实现SSH用户的安全登录。在网络架构上采用主从RADIUS服务器的方式来提高用户认证的稳定性。要求在Device上配置实现: * 使...
Prometheus:Kubernetes 常用资源对象监控-AI运维探索者

Prometheus:Kubernetes 常用资源对象监控

一、容器监控 先把Configmap导出为yaml文件: 编辑yaml,在scrape_configs: 下面增加如下内容 应用配置 重启Prometheus服务 打开浏览器输入http://192.168.1.31:31093访问Prometheus,到Promethe...
Unsloth 微调 Qwen3-4B 实战:训练、推理与 vLLM 部署-AI运维探索者

Unsloth 微调 Qwen3-4B 实战:训练、推理与 vLLM 部署

一、先配置训练器 示例里使用的是 `SFTTrainer`: - 二、几个关键超参数怎么理解 * `gradient_accumulation_steps`: * 用梯度累积模拟更大的 batch。 * `warmup_steps`: * 训练初期逐步升高学...