tencent cloud

文档反馈

监控及告警指标列表

最后更新时间:2021-03-25 16:20:34

    监控

    目前容器服务提供了以下维度的监控指标,所有指标均为统计周期内的平均值

    集群监控指标

    监控指标 单位 说明
    CPU利用率 % 集群整体的 CPU 利用率
    内存利用率 % 集群整体的内存利用率

    Master&Etcd 和普通节点监控指标

    监控指标 单位 说明
    Pod重启次数 节点内所有 Pod 的重启次数之和
    异常状态 - 节点的状态,正常或异常
    CPU利用率 % 节点内所有 Pod 的 CPU 使用量占节点总量之比
    内存利用率 % 节点内所有 Pod 的内存使用量占节点总量之比
    内网入带宽 bps 节点内所有 Pod 的内网入方向带宽之和
    内网出带宽 bps 节点内所有 Pod 的内网出方向带宽之和
    外网入带宽 bps 节点内所有 Pod 的外网入方向带宽之和
    外网出带宽 bps 节点内所有 Pod 的外网出方向带宽之和
    TCP连接数 节点保持的 TCP 连接数

    集群节点更详细的监控指标请参考 云服务器监控

    集群节点数据盘更详细的监控指标请参考 云硬盘监控

    工作负载监控指标

    监控指标 单位 说明
    Pod 重启次数 工作负载内所有 Pod 的重启次数之和
    CPU 使用量 工作负载内所有 Pod 的 CPU 使用量
    CPU 利用率(占集群) % 工作负载内所有 Pod 的 CPU 使用量占集群总量之比
    内存使用量 B 工作负载内所有 Pod 的内存使用量
    内存利用率(占集群) % 工作负载内所有 Pod 的内存使用量占集群总量之比
    网络入带宽 bps 工作负载内所有 Pod 的入方向带宽之和
    网络出带宽 bps 工作负载内所有 Pod 的出方向带宽之和
    网络入流量 B 工作负载内所有 Pod 的入方向流量之和
    网络出流量 B 工作负载内所有 Pod 的出方向流量之和
    网络入包量 个/s 工作负载内所有 Pod 的入方向包数之和
    网络出包量 个/s 工作负载内所有 Pod 的出方向包数之和

    如果工作负载对集群外部提供服务,绑定的 Service 更详细的网络监控指标请参考 负载均衡监控

    Pod 监控指标

    监控指标 单位 说明
    异常状态 - Pod 的状态,正常或异常
    CPU 使用量 Pod 的 CPU 使用量
    CPU 利用率(占节点) % Pod 的 CPU 使用量占节点总量之比
    CPU 利用率(占 Request) % Pod 的 CPU 使用量和设置的 Request 值之比
    CPU 利用率(占 Limit) % Pod 的 CPU 使用量和设置的 Limit 值之比
    内存使用量 B Pod 的内存使用量,含缓存
    内存使用量(不包含 Cache) B Pod 内所有 Container 的真实内存使用量(不含缓存)
    内存利用率(占节点) % Pod 的内存使用量占节点总量之比
    内存利用率(占节点,不包含 Cache) % Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比
    内存利用率(占 Request) % Pod 的内存使用量和设置的 Request 值之比
    内存利用率(占 Request,不包含Cache) % Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Request 值之比
    内存利用率(占 Limit) % Pod 的内存使用量和设置的 Limit 值之比
    内存利用率(占 Limit,不包含 Cache) % Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比
    网络入带宽 bps Pod 的入方向带宽之和
    网络出带宽 bps Pod 的出方向带宽之和
    网络入流量 B Pod 的入方向流量之和
    网络出流量 B Pod 的出方向流量之和
    网络入包量 个/s Pod 的入方向包数之和
    网络出包量 个/s Pod 的出方向包数之和

    Container 监控指标

    监控指标 单位 说明
    CPU 使用量 Container 的 CPU 使用量
    CPU 利用率(占节点) % Container 的 CPU 使用量占节点总量之比
    CPU 利用率(占 Request) % Container 的 CPU 使用量和设置的 Request 值之比
    CPU 利用率(占 Limit) % Container 的 CPU 使用量和设置的 Limit 值之比
    内存使用量 B Container 的内存使用量,含缓存
    内存使用量(不包含 Cache) B Container 的真实内存使用量(不含缓存)
    内存利用率(占节点) % Container 的内存使用量占节点总量之比
    内存利用率(占节点,不包含 Cache) % Container 的真实内存使用量(不含缓存)占节点总量之比
    内存利用率(占 Request) % Container 的内存使用量和设置的 Request 值之比
    内存利用率(占 Request,不包含 Cache) % Container 的真实内存使用量(不含缓存)和设置的 Request 值之比
    内存利用率(占 Limit) % Container 的内存使用量和设置的 Limit 值之比
    内存利用率(占 Limit,不包含 Cache) % Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比
    块设备读带宽 B/s Container 从硬盘读取数据的吞吐量
    块设备写带宽 B/s Container 把数据写入硬盘的吞吐量
    块设备读 IOPS 次/s Container 从硬盘读取数据的 IO 次数
    块设备写 IOPS 次/s Container 把数据写入硬盘的 IO 次数

    告警

    目前容器服务提供了以下维度的告警指标,所有指标均为统计周期内的平均值

    集群告警指标

    监控指标 单位 说明
    CPU 利用率 % 集群整体的 CPU 利用率
    内存利用率 % 集群整体的内存利用率
    CPU 分配率 % 集群所有容器设置的 CPU Request 之和与集群总可分配 CPU 之比
    内存分配率 % 集群所有容器设置的内存 Request 之和与集群总可分配内存之比
    Apiserver 正常 - Apiserver 状态,默认 False 时告警,仅独立集群支持该指标
    Etcd 正常 - Etcd 状态,默认 False 时告警,仅独立集群支持该指标
    Scheduler 正常 - Scheduler 状态,默认 False 时告警,仅独立集群支持该指标
    Controll Manager 正常 - Controll Manager 状态,默认 False 时告警,仅独立集群支持该指标

    节点告警指标

    监控指标 单位 说明
    CPU 利用率 % 节点内所有 Pod 的 CPU 使用量占节点总量之比
    内存利用率 % 节点内所有 Pod 的内存使用量占节点总量之比
    节点上 Pod 重启次数 节点内所有 Pod 重启次数之和
    Node Ready - 节点状态,默认 False 时告警

    集群节点更详细的指标告警请参考 云服务器监控云监控创建告警策略

    集群节点数据盘更详细的指标告警请参考 云硬盘监控云监控创建告警策略

    Pod 告警指标

    监控指标 单位 说明
    CPU 利用率(占节点) % Pod 的 CPU 使用量占节点总量之比
    内存利用率(占节点) % Pod 的内存使用量占节点总量之比
    实际内存利用率(占节点) % Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比
    CPU 利用率(占 Limit) % Pod 的CPU使用量和设置的 Limit 值之比
    内存利用率(占 Limit) % Pod 的内存使用量和设置的 Limit 值之比
    实际内存利用率(占 Limit) % Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比
    Pod 重启次数 Pod 的重启次数
    Pod Ready - Pod 的状态,默认 False 时告警
    CPU 使用量 Pod 的 CPU 使用量
    内存使用量 MB Pod 的内存使用量,含缓存
    实际内存使用量 MB Pod 内所有 Container 的真实内存使用量之和,不含缓存
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持