张卿

张卿

个人博客作者

Kubernetes 运维工程师,持续学习云原生与自动化技术,在实践中沉淀经验,记录技术成长与运维思考。

关于这个博客

欢迎来到我的个人博客!这里是我分享技术心得、生活感悟和学习笔记的地方。

我热爱编程,喜欢探索新技术,也享受在代码中解决问题的过程。通过这个博客,我希望能够:

  • 记录学习过程中的思考和总结
  • 分享实用的技术经验和技巧
  • 与同行交流技术观点和见解
  • 建立自己的知识体系和思维框架

技术栈

云原生平台

Kubernetes Helm Docker Argo CD Istio

可观测性体系

Prometheus Grafana Alertmanager Loki Skywalking

基础设施与数据组件

MySQL PostgreSQL Redis MongoDB Ingress nginx 华为云/阿里云

GitOps与自动化

GitLab Git Ansible Argo Workflows Terraform

项目经历

磐舟DevSecOps平台项目

2023.05 - 2025.07

项目背景:为应对云原生时代复杂严峻的网络安全挑战,安徽移动引入磐舟DevSecOps平台,旨在构建覆盖软件开发生命周期(SDLC)全流程的云原生安全防护体系。项目核心目标是实现安全左移,通过自动化安全门禁(涵盖源代码审计、开源协议合规扫描、开源组件漏洞扫描、容器镜像安全扫描等)将安全能力深度集成到CI/CD流水线中,有效预防安全风险,确保上生产环境的制品安全合规

核心职责:
  • 负责与客户技术对接,协调资源授权、网络策略、实施方案及架构设计,确保方案合规
  • 牵头产品集群部署,编写部署FAQ、基线及高可用报告,提升效率与知识沉淀
  • 执行并输出全面安全测试报告(基线/渗透/镜像扫描),保障安全门禁有效阻断高危制品
  • 演示平台功能、解答问题:精准定位复现缺陷,协同三线研发解决并文档化输出
  • 负责知识转移(移交运维)、产品验收及交付文档(台账/五同步材料/部署文档等)归档
  • 编写并维护关键运维文档,包括应急预案、深度巡检手册、标准化维护流程,提升运维规范性与效率
  • 独立负责平台组件的日常维护、版本更新、产品升级实施,保障平台稳定运行与功能迭代
  • 策划并执行定期故障演练(如高可用切换、灾难恢复),验证并提升平台容灾能力与团队应急响应水平
  • 积极响应用户问题及总部安全指令,主导完成专项安全漏洞排查、合规性检查与深度分析,及时输出详尽的排查报告与整改建议
项目成果:
  • 成功落地云原生安全防护体系:在安徽移动环境中成功部署并上线磐舟DevSecOps平台,建立起端到端的安全交付流水线,实现了安全能力的自动化嵌入与左移
  • 全面保障合规性:产出高质量的合规文档包(基线报告、漏扫报告、容器安全报告、高可用报告),有力支撑了平台满足内外部安全审计与合规要求
  • 客户认可与知识沉淀:获得客户对平台功能与支持服务的高度认可,形成完整的部署、运维及故障处理知识库,为后续项目提供宝贵经验
DevSecOps Kubernetes CI/CD Security Image Scan HA

基于Helm的云原生CI/CD自动化流水线建设项目

2022.08 - 2022.12

项目背景:基于控制器文件部署需要维护大量的yaml文件,且控制器方式低效且不够灵活。基于Helm的CI/CD应用交付,可以轻松将应用打包成chart,由CI/CD平台负责自动部署和测试。同时,通过Helm release管理来实现应用版本控制,保证应用的稳定和安全

核心职责:
  • 构建自动化工具链:整合Jenkins(调度)+GitLab(触发)+Harbor(Chart仓库)+Kubernetes(运行),实现端到端流水线闭环
  • 标准化Helm交付:抽象Java/Vue/Python/Go应用为通用Chart模板,支持values.yaml动态配置注入
  • 开发多分支流水线:基于Groovy实现Pipeline引擎,集成SonarQube代码扫描/单元测试/Docker镜像构建
  • 强化流水线安全:实施Jenkins凭据加密与关键应用发布审批流程,保障投产合规性
  • 设计智能发布策略:实现金丝雀发布与故障自动回滚机制,降低生产环境风险
  • 优化资源弹性:配置基于Kubernetes Pod的Jenkins Agent动态伸缩,提升资源利用率40%
项目成果:
  • 提升部署效率90%(30分钟→3分钟),降低生产事故70%
  • 沉淀10+通用HelmChart模板,节省手工YAML维护人力成本70%
Helm Jenkins GitLab Harbor Kubernetes SonarQube Docker

容器化改造项目

2022.03 - 2022.07

项目背景:公司研发体系采用单体架构,多项目并行开发导致环境资源抢占严重,开发测试上线效率低下。需为每个项目提供独立、可动态创建销毁的标准化环境,支撑项目全生命周期管理

核心职责:
  • 主导设计并构建容器平台,涵盖容器化、编排、服务治理、配置管理及存储方案
  • 实现全栈可观测性,集成Prometheus监控、ELK日志及自定义探针
  • 实施资源限制与HPA策略,优化CPU/Memory利用率
  • 构建基于GitLab CI/CD的自动化流水线,实现应用自动构建部署
  • 推动跨部门协作机制,解决技术争议与需求冲突
项目成果:
  • 环境交付时间从3天到10分钟,支撑50+项目并行开发
  • 彻底消除环境抢占冲突,研发阻寨时间减少95%
  • 提升整体资源利用率30%(精准Request/Limit控制)
  • 降低生产环境发布故障率90%(标准化镜像+健康检查)
Containerization Kubernetes GitLab CI/CD Prometheus ELK HPA

基于Prometheus的统一监控平台建设项目

2021.08 - 2021.11

项目背景:为应对混合架构(主机/K8s/中间件)下监控碎片化问题,构建统一监控体系,实现从基础设施到应用层的全栈可观测性,提升故障发现与定位效率。通过集成Exporter等手段,实现了对关键组件和应用的实时监控,并利用企业微信API作为告警媒介,提高了运维团队对潜在风险的快速响应能力

核心职责:
  • 主导标准化指标采集,通过Node-Exporter/cAdvisor/Blackbox-Exporter等实现150+K8sPod及5+中间件集群的高频监控
  • 实现业务指标驱动扩缩容,基于KEDA对接Redis/Kafka等,利用QPS/队列深度等业务指标实现HPA自动伸缩
  • 集成Consul实现动态目标发现,自动维护150+监控端点,显著降低运维成本70%
  • 构建统一可视化平台,开发20+开箱即用Grafana仪表盘模板,覆盖资源/服务/业务黄金指标
  • 建立智能告警闭环体系,整合Alertmanager/PrometheusAlert企业微信API,保障告警到达时效≤30秒
项目成果:
  • 覆盖范围:实现对150+K8s Pod、5+中间件集群的细粒度监控(15秒/次)
  • 效率提升:故障定位时间从小时级缩短至≤5分钟
  • 成本优化:基于HPA动态伸缩节省计算资源25%
  • 资产沉淀:沉淀超过20个标准化、开箱即用的Grafana仪表盘模板
Prometheus Grafana KEDA Consul Alertmanager Blackbox Exporter

MySQL高可用架构升级与Redis缓存性能优化项目

2021.01 - 2021.02

项目背景:为应对用户量激增导致的数据库性能瓶颈(主库CPU高达75%)和单点故障风险,主导设计并实施了MySQL高可用集群扩展与Redis缓存层优化,全面提升系统稳定性、扩展性和响应能力

核心职责:
  • 构建MySQL高可用架构,基于主从复制+Keepalived VIP漂移实现故障秒级切换,消除单点故障
  • 部署Redis Sentinel集群,保障缓存层高可用,实现节点自动故障切换
  • 启用MySQL半同步复制,降低主从数据丢失风险,提升数据可靠性
  • 加固MySQL传输安全,实施SSL/TLS加密并严格管控账号权限
  • 优化Redis缓存策略并实施读写分离,成功将60%查询流量导向从库,显著降低主库压力
  • 验证高可用容灾能力,通过故障演练确认VIP漂移及Sentinel切换满足秒级恢复要求
  • 完善数据库监控告警体系,集成Prometheus全面监控MySQL/Redis核心指标及主从状态
项目成果:
  • 消除单点故障风险,实现故障秒级切换
  • Redis缓存命中率92%,有效降低MySQL读压力80%
  • 支持的业务应用数量、预估承载的用户量数据量增长
  • 监控告警体系使DBA故障响应效率提升80%
  • 从库承载60%查询压力,主库CPU利用率从75%降至30%
MySQL Redis Keepalived Sentinel Prometheus SSL/TLS Replication

个人简历

张卿-高级运维工程师

5年运维与交付经验,先后任职于安徽明生恒卓、北京斯普信,主要服务国家电网和中国移动客户。曾负责50+业务系统监控接入、漏洞整改、巡检与应急保障,以及150+节点Kubernetes集群、DevSecOps/PaaS平台私有化交付与稳定性运维。参与磐舟平台、磐基PaaS、云文档、智慧党建等项目,具备K8s、阿里云、Prometheus/Grafana、CI/CD、Ansible、Shell/Python、安全加固及故障处理能力。

博客统计

1671
文章总数
1150085
总浏览量
0
评论总数
65
标签数量