可观测性与运维 第14页
ECK实战:在Kubernetes中从零落地日志收集平台-AI运维探索者

ECK实战:在Kubernetes中从零落地日志收集平台

一、在K8s中从零落地日志收集平台 官方文档:https://www.elastic.co/docs/deploy-manage/deploy/cloud-on-k8s 1.1 ECK安装 参考链接:https://www.elastic.co/docs/deploy-manage/deploy/cloud...
Alertmanager入门:核心概念与主要功能-AI运维探索者

Alertmanager入门:核心概念与主要功能

一、Alertmanager基本概念 Prometheus 警报分为两部分。Prometheus 服务器中的警报规则将警报发送到警报管理器。然后,Alertmanager 管理这些警报,包括沉默、抑制、聚合以及通过电子邮件、待命...
Elasticsearch运维进阶:多实例、Head、Postman与故障排查-AI运维探索者

Elasticsearch运维进阶:多实例、Head、Postman与故障排查

一、ES集群的多实例部署 1、在elk121节点上配置集群免密登录及同步脚本 在elk121节点上修改主机列表 在elk121节点上生成密钥对 | \[root@elk121 ~\]ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa -...
Elasticsearch集群原理:倒排索引、节点角色与读写流程-AI运维探索者

Elasticsearch集群原理:倒排索引、节点角色与读写流程

一、倒排索引 面试题: 分片底层时如何工作的? 答: 分片底层对应的是一个Lucene库,而Lucene底层使用倒排索引技术实现。 **正排索引(正向索引):** 我们MySQL为例,用id字段存储博客文章的编号,...
AlertManager告警分组和告警抑制:抑制-AI运维探索者

AlertManager告警分组和告警抑制:抑制

一、示例1: 将如下配置增加到alertmanager_config.yaml里 **说明:当集群中的某一个主机节点异常宕机导致告警NodeDown被触发,同时在告警规则中定义了告警级别severity=Critical。由于主机异常...
Prometheus Operator 自定义监控:Helm 版 Ingress-Nginx-AI运维探索者

Prometheus Operator 自定义监控:Helm 版 Ingress-Nginx

一、自定义资源 Prometheus-operator 通过定期循环watch apiserver,获取到CRD资源(比如 servicemonitor)的创建或者更新,将配置更新及时应用到运行中的prometheus pod 中转换成标准promethes...
ServiceMonitor发现不到监控目标时怎么排查-AI运维探索者

ServiceMonitor发现不到监控目标时怎么排查

一、检查kube-controller-manager的Service Monitor是否成功创建,观察到已成功创建 二、检查kube-controller-manager的Service Monitor标签是否配置正确,观察到已配置 使用kube-controller-ma...
Elasticsearch DSL查询实战:match、bool、sort、filter与聚合-AI运维探索者

Elasticsearch DSL查询实战:match、bool、sort、filter与聚合

一、什么是DSL Elasticsearch 提供了基于JSON的完整 Query DSL(Domain Specific Language,领域特定语言)来定义查询。 1.1 环境准备 1.1 创建索引指定数据映射 1、填写PUT请求http://192.168....
Prometheus监控Etcd实战:证书、Service与ServiceMonitor-AI运维探索者

Prometheus监控Etcd实战:证书、Service与ServiceMonitor

一、Prometheus监控云原生应用流程 上面流程图说明: 针对云原生应用一般本身都存在一个/metrics接口,我们需要配置一个Service指向云原生应用(集群外部的应用需要应用Service指定具体IP)。同...