tencent cloud

容器服务

动态与公告
产品动态
公告
产品发布记录
产品简介
产品概述
产品优势
产品架构
应用场景
产品功能
基本概念
原生 Kubernetes 名词对照
容器服务高危操作
地域和可用区
开源组件
购买指南
购买指引
购买 TKE 标准集群
购买原生节点
购买超级节点
快速入门
新手指引
快速创建一个标准集群
入门示例
容器应用部署 Check List
集群配置
标准集群概述
集群管理
网络管理
存储管理
节点管理
GPU 资源管理
远程终端
应用配置
工作负载管理
服务和配置管理
组件和应用管理
弹性伸缩
容器登录方式
可观测配置
运维可观测性
成本洞察和优化
调度配置
调度组件概述
资源利用率优化调度
业务优先级保障调度
Qos 感知调度
安全和稳定性
容器服务安全组设置
身份验证和授权
应用安全
多集群管理
计划升级
备份中心
云原生服务指南
云原生 etcd
Prometheus 监控服务
TKE Serverless 集群指南
TKE 注册集群指南
实践教程
集群
Serverless 集群
调度
安全
服务部署
网络
发布
日志
监控
运维
Terraform
DevOps
弹性伸缩
容器化
微服务
成本管理
混合云
AI
故障处理
节点磁盘爆满排障处理
节点高负载排障处理
节点内存碎片化排障处理
集群 DNS 解析异常排障处理
集群 Kube-Proxy 异常排障处理
集群 API Server 网络无法访问排障处理
Service&Ingress 网络无法访问排障处理
Service&Ingress 常见报错和处理
Nginx Ingress 偶现 Connection Refused
CLB Ingress 创建报错排障处理
Pod 网络无法访问排查处理
Pod 状态异常与处理措施
授权腾讯云售后运维排障
CLB 回环问题
API 文档
History
Introduction
API Category
Making API Requests
Elastic Cluster APIs
Resource Reserved Coupon APIs
Cluster APIs
Third-party Node APIs
Relevant APIs for Addon
Network APIs
Node APIs
Node Pool APIs
TKE Edge Cluster APIs
Cloud Native Monitoring APIs
Scaling group APIs
Super Node APIs
Other APIs
Data Types
Error Codes
TKE API 2022-05-01
常见问题
TKE 标准集群
TKE Serverless 集群
运维类
隐患处理
服务类
镜像仓库类
远程终端类
事件类
资源管理类
服务协议
TKE Service Level Agreement
TKE Serverless Service Level Agreement
联系我们
词汇表

监控和告警配置

PDF
聚焦模式
字号
最后更新时间: 2025-03-19 18:30:12

概述

云原生 etcd 默认为您提供节点资源使用率、集群业务指标、实例级别指标、实例接口四个维度的监控指标数据,均支持设置告警,此外,如果您有自定义监控指标展示的需求,也支持使用 Prometheus 监控 作为额外的监控服务,配置自定义的监控指标。

前提条件

操作步骤

2. 进入 etcd 集群列表页面,在页面上方选择相关地域,在下方集群列表中找到您需要操作的 etcd 集群。

查看监控指标

可从实例列表页,单击对应集群 

图标,进入实例详情页 > 实例监控。如下图所示:




指标释义

聚合方式:



1. 时长:监控图表中展示的数据所属时间范围。
2. 粒度:图表中每个数据点的聚合方式,原始数据默认为15s采集一次,控制台可选择按1分钟、5分钟聚合展示平均值。
3. 自动刷新:图表自动刷新的周期,支持按30s/5min/30min/1h自动刷新图表,默认关闭。
指标概览:
指标维度
指标名称
单位
指标说明
节点资源
CPU 用量占 request 百分比
百分比
节点当前 CPU 用量占用当前节点 Pod CPU request 值(用户创建实例时选择的 CPU 规格)的比例
节点资源
文件系统读取速率
MiBytes/s
节点数据盘读操作每秒数据量
节点资源
文件系统写入速率
MiBytes/s
节点数据盘写操作每秒数据量
节点资源
内存使用量占 request 百分比
百分比
节点内存当前用量占 Pod MEM request 值(用户创建实例时选择的内存规格)的比例
节点资源
内存使用总量
MiBytes
节点内存使用量
节点资源
网络接收速率
MiBytes
节点网卡数据接收速率
节点资源
网络发送速率
MiBytes
节点网卡数据发送速率
业务指标
数据库 key 数量
节点中 key 的数量,数据来源 etcd metrics,计算公式:etcd_debugging_mvcc_keys_total{job="$job"}
业务指标
数据库 MVCC 写入次数
节点中数据写入次数,计算公式:etcd_mvcc_put_total{job="$job"}
业务指标
数据库大小
MiBytes
节点中统计的数据库大小,计算公式:etcd_debugging_mvcc_db_total_size_in_bytes{job="$job"}
业务指标
共识提议 apply 速率
次/s
通常应该很小(即使在高负载下也只有几千个)。如果指标差异持续上升,则表明 etcd 服务器过载。可能是高耗查询导致的(如大范围查询或大型 txn 操作),计算公式:rate(etcd_server_proposals_applied_total{job="$job"}[5m])
业务指标
共识提议 commit 速率
次/s
通常会随着时间的推移而增加,单个 member 与 leader 之间持续较大的延迟表明该成员运行缓慢或不健康,计算公式:rate(etcd_server_proposals_committed_total{job="$job"}[5m])
业务指标
排队等待共识提议总量
该指标上升表示存在高客户端负载或成员无法提交提议,计算公式:etcd_server_proposals_pending{job="$job"}
业务指标
失败共识提议增长速率
次/s
该指标通常与两个问题有关:与 leader 选举相关的临时故障或由于集群中的仲裁损失而导致的较长时间故障,计算公式:ate(etcd_server_proposals_failed_total{job="$job"}[5m])
实例级指标
集群是否有 Leader
布尔值
如果没有 leader ,则实例不可用,计算公式:max(etcd_server_has_leader{job="$job"})
实例级指标
Leader 切换总次数
如果没有 leader,频繁的 leader 变动会显着影响 etcd 的性能,可能是由于网络连接问题或 etcd 集群的负载过大,计算公式:max(etcd_server_leader_changes_seen_total{job="$job"})
说明:
当前指标采集的数据为实例创建成功后的汇总值,和告警周期的选择无关。
实例接口监控
gRPC 调用速率
次/s
特定 method 操作的 grpc 调用速率,计算公式:sum(rate(grpc_server_handled_total{job="$job"}[1m])) by (job,grpc_method,instance)


帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈