最新发布第106页
Job 重试机制与清理:backoffLimit、activeDeadlineSeconds 详解-AI运维探索者

Job 重试机制与清理:backoffLimit、activeDeadlineSeconds 详解

一、Job重试机制 如果要实现 Pod 执行失败后可以重试,此时可以把重启策略改成 OnFailure,但是最好限制一下重试次数。比如最多允许每个 Pod 尝试两次任务执行 1、定义job的yaml文件 关键配置信...
Redis 备份恢复与企业使用规范-AI运维探索者

Redis 备份恢复与企业使用规范

一、Redis备份恢复 1.1 备份 1.2 恢复 二、Redis企业使用规范 2.1 开发规范 1、key名设计 【建议】 : 可读性和可管理性 以业务名 (或数据库名 )为前缀 (防止 key冲突 ),用冒号分隔,比如业务名...
Kubernetes CronJob基础概念、配置参数与创建实践-AI运维探索者

Kubernetes CronJob基础概念、配置参数与创建实践

一、什么是CronJob CronJob创建基于时隔重复调度的 Job。其中`.spec.schedule` 字段是必需的。该字段的值遵循 Cron 语法: 例如 `0 0 13 * 5` 表示此任务必须在每个星期五的午夜以及每个月的 13...
Kubernetes全链路监控:全链路监控Skywalking介绍-AI运维探索者

Kubernetes全链路监控:全链路监控Skywalking介绍

一、APM APM (Application Performance Management )应用性能管理 ,通过各种探针采集并上报数据,收集关键指标,同时搭配数据展示以实现对应用程序性能管理和故障管理的系统化解决方案。 目...
MinIO 集群扩缩容指南:LVM 扩容与节点横向扩展-AI运维探索者

MinIO 集群扩缩容指南:LVM 扩容与节点横向扩展

一、扩容 通常当MinIO容量使用到 $7 0 \%$ 时,建议考虑进行扩容。 扩容有两种方案 * 通过LVM逻辑卷扩容,前提安装时事先使用LVM * 通过一个相同规格的集群扩容 1.1 基于 LVM 扩容 使用lvm逻辑卷...
K8S 与 Jenkins 微服务发布:流程设计与可观察性思路-AI运维探索者

K8S 与 Jenkins 微服务发布:流程设计与可观察性思路

一、基于 K8S/Jenkins 平台的微服务发布解决方案 1.1 发布流程设计 1、开发同学提交代码; 2、Jenkins自动触发构建(代码拉取/编译/执行Dockerfile业务逻辑/镜像推送); 3、通过控制器/HELM部...
NodePort 详解:对外暴露服务与端口范围配置-AI运维探索者

NodePort 详解:对外暴露服务与端口范围配置

一、NodePort 的工作方式是什么 只要把 Service 的 `type` 设成 `NodePort`,Kubernetes 就会在每个节点上监听一个指定范围内的端口。集群外部访问时,使用任意节点 IP 加这个端口即可: NodePo...
Skywalking:安装Skywalking-AI运维探索者

Skywalking:安装Skywalking

一、在master01节点上添加repo。 二、下载chart 三、修改values.yaml 3.1 第7行修改host和第12行关闭es 3.2 调整oap处的镜像tag、内存、sc类型、副本数 第145行修改tag为9.5.0 第147行修改内存...
OSPF路由协议基础实验:多路由器动态互联配置-AI运维探索者

OSPF路由协议基础实验:多路由器动态互联配置

一、**实验拓扑** 二、**实验需求** 1、R1、R2、R3都是各自网络的网关设备 2、通过OSPF动态路由协议实现网络之间互联互通 3、R1-R3配置OSPF认证(R1的1口配置接口认证,R3的1口配置区域认证),R1...
大模型推理优化总览:硬件、系统架构与服务部署-AI运维探索者

大模型推理优化总览:硬件、系统架构与服务部署

一、大模型优化的核心目标 优化通常围绕四个目标展开: * 降低延迟: * 尤其是首个 Token 时间和生成速度。 * 提高吞吐: * 在固定资源下服务更多请求。 * 降低成本: * 提升资源利用率,降低单...