最新发布第103页
Kubernetes节点上线和下线:新节点上线-AI运维探索者

Kubernetes节点上线和下线:新节点上线

一、基本环境配置 1、修改主机名 2、修改host文件 (1)新节点安装vim工具,如果安装过请忽略 (2)每台机器上修改hosts文件 3、安装yum源 (1)在新节点上执行以下命令配置默认yum源并安装依赖 (2)在...
Pod状态排障指南:Pending、ImagePullBackOff、CrashLoopBackOff与OOMKilled怎么查-AI运维探索者

Pod状态排障指南:Pending、ImagePullBackOff、CrashLoopBackOff与OOMKilled怎么查

一、先理解 Pod 常见状态 日常最常见的 Pod 状态包括: - `Pending` - `Running` - `Succeeded` - `Failed` - `Unknown` - `ImagePullBackOff` / `ErrImagePull` - `CrashLoopBackOff` - `OOMKi...
云原生十二要素与CNAI入门:应用最佳实践与AI结合路径-AI运维探索者

云原生十二要素与CNAI入门:应用最佳实践与AI结合路径

一、为什么要用十二要素来审视云原生应用 云原生十二要素本质上是一组关于应用设计、交付和运行方式的实践准则。 它的价值在于帮助我们回答三个关键问题: - 应用是否足够标准化,能否稳定交付...
SSH用户的RADIUS认证和授权配置-S7506E-AI运维探索者

SSH用户的RADIUS认证和授权配置-S7506E

一、组网需求 通过在作为NAS的Device上配置远程RADIUS认证、授权功能,实现SSH用户的安全登录。在网络架构上采用主从RADIUS服务器的方式来提高用户认证的稳定性。要求在Device上配置实现: * 使...
Prometheus:Kubernetes 常用资源对象监控-AI运维探索者

Prometheus:Kubernetes 常用资源对象监控

一、容器监控 先把Configmap导出为yaml文件: 编辑yaml,在scrape_configs: 下面增加如下内容 应用配置 重启Prometheus服务 打开浏览器输入http://192.168.1.31:31093访问Prometheus,到Promethe...
Unsloth 微调 Qwen3-4B 实战:训练、推理与 vLLM 部署-AI运维探索者

Unsloth 微调 Qwen3-4B 实战:训练、推理与 vLLM 部署

一、先配置训练器 示例里使用的是 `SFTTrainer`: - 二、几个关键超参数怎么理解 * `gradient_accumulation_steps`: * 用梯度累积模拟更大的 batch。 * `warmup_steps`: * 训练初期逐步升高学...
Jenkins Blue Ocean图形化创建流水线入门-AI运维探索者

Jenkins Blue Ocean图形化创建流水线入门

- 一、打开浏览器输入http://192.168.1.36/,输入账号密码登录。 一、关闭主机密钥验证 点击 【Manage Jenkins】 → 【Configure Global Security】 找到Git Host Key Verification Configuratio...
CronJob 实战:定期备份 MySQL 并落盘到持久化存储-AI运维探索者

CronJob 实战:定期备份 MySQL 并落盘到持久化存储

一、使用CronJob定期备份MySQL 1.1 搭建MySQL 1、创建一个 MySQL 的 PVC 2、创建一个 MySQL 的 Deployment 3、创建MySQL,并查看启动状态 4、MySQL 启动后,会在数据目录初始化基础数据,此时可...
使用Rook搭建Ceph集群与Snapshot控制器-AI运维探索者

使用Rook搭建Ceph集群与Snapshot控制器

一、先决条件 1.Rook部署完成且状态正常 2.创建Ceph集群时,需要提前在Kubernetes指定节点上添加一块或多块空白硬盘(未格式化的磁盘) 二、开始部署Ceph集群 1.修改cluster.yaml文件,替换国外镜...
单体应用容器化转型:背景、流程与成本对比-AI运维探索者

单体应用容器化转型:背景、流程与成本对比

一、背景调研 单体架构下,很多研发部门的同事,同时会有很多个项目并行开发,环境的抢占问题严重影响了开发、测试和上线的效率,我们需要给每个项目提供一套开发联调、测试环境,并且随着项目...