产品动态
产品公告


指标名称 | 含义 | 单位 | 维度 |
GPU 使用率 | 评估负载所消耗的计算能力,非空闲状态百分比 | % | per-GPU |
GPU 显存使用量 | 评估负载使用的显存量 | MB | per-GPU |
GPU 显存使用率 | 评估负载使用的显存量占显存总量的百分比 | % | per-GPU |
GPU 功耗使用量 | 评估 GPU 耗电情况 | W | per-GPU |
GPU 温度 | 评估 GPU 散热状态 | 摄氏度 | per-GPU |
GPU 编码器使用率 | 评估编码器使用百分比 | % | per-GPU |
GPU 解码器使用率 | 评估解码器使用百分比 | % | per-GPU |

指标英文名 | 指标中文名 | 指标说明 | 单位 | 维度 |
GpuMemUsage | GPU 显存使用率 | GPU 显存使用率 | % | per-GPU |
gpu_mem_used | GPU 显存使用量 | 评估负载使用的显存量 | MB | per-GPU |
GpuPowdraw | GPU 功耗使用量 | GPU 功耗使用量 | W | per-GPU |
GpuTemp | GPU 温度 | 评估 GPU 散热状态 | 摄氏度 | per-GPU |
GpuUtil | GPU 使用率 | 评估负载所消耗的计算能力,非空闲状态百分比 | % | per-GPU |
GpuEncUtil | GPU 编码器使用率 | GPU 编码器使用率 | % | per-GPU |
GpuDecUtil | GPU 解码器使用率 | GPU 解码器使用率 | % | per-GPU |


指标名称 | 建议告警阈值 | 描述 | 处理建议 |
GPU 功耗使用率 | <=0 | 功耗小于0时可能功率出现Unknown Error,会影响 GPU 的正常使用。 | 执行 nvidia-smi 命令查看 GPU 的功率是否有 ERR 或 nvidia-smi -i <target gpu> -q |grep "Power Draw" 是否为 Unknown Error,若存在该现象则尝试重启机器恢复及更新驱动观察。若重启无法恢复 提交工单 联系腾讯云支持。 |
GPU 温度 | 持续5分钟>80 | 当 GPU 温度过高时可能会导致 GPU SlowDown,影响业务性能。 | |
GPU 是否存在显存页需隔离 | =1 | 安培以下架构 GPU 出现了 ECC ERROR,应用进程被 kill,GPU卡处于pending 状态。 | 执行 nvidia-smi -i <target gpu> -q -d PAGE_RETIREMENT 命令查看是否有 GPU 卡处于 pending 状态,重置 GPU 卡或重启实例恢复。若重启无法恢复 提交工单 联系腾讯云支持。 |
GPU 显存是否发生 UCE | =1 | 安培及以上架构 GPU 出现了 ECC ERROR,应用进程被 kill,GPU卡处于pending 状态。 | 执行 nvidia-smi -i <target gpu> -q -d ROW_REMAPPER 命令查看是否有 GPU 卡处于 Pending 状态,重置 GPU 卡或重启实例恢复。若重启无法恢复 提交工单 联系腾讯云支持。 |
GPU 内存使用率 | 仅保持观察 | - | 评估负载对显存占用。 |
GPU 使用率 | 仅保持观察 | - | 评估负载对 GPU 流处理器占用。 |
文档反馈