tencent cloud

GPU 云服务器

动态与公告
产品动态
产品公告
产品简介
产品概述
产品优势
应用场景
使用须知
实例类型
计算型实例
渲染型实例
产品计费
计费概述
续费说明
快速入门
用户指南
登录实例
重启实例
安装 NVIDIA 驱动
卸载 NVIDIA 驱动
升级 NVIDIA 驱动
使用 GPU 监控和告警
实践教程
基于 Linux GPU 云服务器安装 NVIDIA Container Toolkit
使用 Windows GPU 云服务器搭建深度学习环境
使用视频增型实例 GN7vi 实现视频画质增强
使用 Docker 安装 TensorFlow 并设置 GPU/CPU 支持
使用 GPU 云服务器训练 ViT 模型
故障处理
GPU 实例异常处理指南
常见 Xid 事件的处理方法
GPU 实例相关日志收集
GPU 使用率显示 100%
控制台的 VNC 不可用
常见问题
相关协议
Special Terms for Committed Sales Model
联系我们
文档GPU 云服务器用户指南使用 GPU 监控和告警

使用 GPU 监控和告警

PDF
聚焦模式
字号
最后更新时间: 2026-01-19 11:46:30
监控与告警是保证 GPU 云服务器高可靠性、高可用性和高性能的重要部分。创建 GPU 云服务器时,默认免费开通腾讯云可观测平台。您可以通过 云服务器控制台 查看监控指标,详细说明请参见 云服务器监控内容。NVIDIA GPU 系列实例另外提供了监控 GPU 使用率,显存使用量,功耗以及温度等参数的能力。
您也可以在 腾讯云可观测平台 分析监控指标和实施告警,更多详细内容可参见 腾讯云可观测平台告警管理

GPU 监控工作条件

GPU 监控是通过在 GPU 云服务上部署安装相关 GPU 驱动云服务器监控组件 来实现的,使用不同的镜像需要不同的处理方式:
使用公共镜像:公共镜像默认包含云服务器监控组件,只需安装 GPU 驱动。
使用导入镜像:需手动安装云服务器监控组件和 GPU 驱动。

在控制台查看 GPU 工作参数

单击 GPU 列表中的

监控图标, 访问 控制台 GPU 实例的监控页面,查看 GPU 监控,移动鼠标到指标曲线上将显示对应 GPU 设备的 BDF(Bus、Device、Function,设备唯一地址)和监控数据。如下图所示:



参数说明:
指标名称
含义
单位
维度
GPU 使用率
评估负载所消耗的计算能力,非空闲状态百分比
%
per-GPU
GPU 显存使用量
评估负载使用的显存量
MB
per-GPU
GPU 显存使用率
评估负载使用的显存量占显存总量的百分比
%
per-GPU
GPU 功耗使用量
评估 GPU 耗电情况
W
per-GPU
GPU 温度
评估 GPU 散热状态
摄氏度
per-GPU
GPU 编码器使用率
评估编码器使用百分比
%
per-GPU
GPU 解码器使用率
评估解码器使用百分比
%
per-GPU

在腾讯云可观测平台查看 GPU 工作参数

腾讯云可观测平台 支持分析更丰富的 GPU 监控指标。
1. 登录 腾讯云可观测平台,左侧导航栏中选择 Dashboard > Dashboard 列表
2. 在 Dashboard 列表中,单击新建 Dashboard > 自定义新建,在新的 Dashboard 选择新建图表,在指标处选择 GPU / 云服务器 / GPU 监控,单击您关注的指标,自定义监控面板进行多实例展示,如下图所示:

参数详情可参见 腾讯云可观测平台 GPU 云服务器监控指标,提供以下监控指标:
指标英文名
指标中文名
指标说明
单位
维度
GpuMemUsage
GPU 显存使用率
GPU 显存使用率
%
per-GPU
gpu_mem_used
GPU 显存使用量
评估负载使用的显存量
MB
per-GPU
GpuPowdraw
GPU 功耗使用量
GPU 功耗使用量
W
per-GPU
GpuTemp
GPU 温度
评估 GPU 散热状态
摄氏度
per-GPU
GpuUtil
GPU 使用率
评估负载所消耗的计算能力,非空闲状态百分比
%
per-GPU
GpuEncUtil
GPU 编码器使用率
GPU 编码器使用率
%
per-GPU
GpuDecUtil
GPU 解码器使用率
GPU 解码器使用率
%
per-GPU
说明:
如果没有监控数据,考虑以下几种可能性:
只支持 NVIDIA GPU 实例。
没有安装 GPU 驱动或监控组件。
其他原因分析可参见 云服务器无监控数据

GPU 云服务器监控指标告警配置

腾讯云可观测平台 支持分析更丰富的 GPU 监控指标。
1. 登录 腾讯云可观测平台,在左侧导航栏中,选择告警管理 > 告警配置。
2. 单击 新建告警策略,在监控类型选择云产品监控,策略类型中选择云服务器 / GPU 监控,选择您希望接收告警的 GPU 实例对象,触发条件选择手动配置



3. GPU 云服务器监控支持以下指标告警:GPU 内存使用率、GPU 功耗使用率、GPU 使用率、GPU 温度、GPU 是否存在显存页需隔离、GPU 显存是否发生 UCE 等。您可以参考下图进行配置告警。告警通知的配置可参见 新建通知模板,支持通过多种渠道进行通知。



常用告警指标参考如下:
指标名称
建议告警阈值
描述
处理建议
GPU 功耗使用率
<=0
功耗小于0时可能功率出现Unknown Error,会影响 GPU 的正常使用。

执行 nvidia-smi 命令查看 GPU 的功率是否有 ERR 或 nvidia-smi -i <target gpu> -q |grep "Power Draw" 是否为 Unknown Error,若存在该现象则尝试重启机器恢复及更新驱动观察。若重启无法恢复 提交工单 联系腾讯云支持。
GPU 温度
持续5分钟>80
当 GPU 温度过高时可能会导致 GPU SlowDown,影响业务性能。
可能负载过高导致 GPU 温度过高,可尝试重启实例恢复,若无法恢复 提交工单 联系腾讯云支持。
GPU 是否存在显存页需隔离
=1
安培以下架构 GPU 出现了 ECC ERROR,应用进程被 kill,GPU卡处于pending 状态。
执行 nvidia-smi -i <target gpu> -q -d PAGE_RETIREMENT 命令查看是否有 GPU 卡处于 pending 状态,重置 GPU 卡或重启实例恢复。若重启无法恢复 提交工单 联系腾讯云支持。
GPU 显存是否发生 UCE
=1
安培及以上架构 GPU 出现了 ECC ERROR,应用进程被 kill,GPU卡处于pending 状态。
执行 nvidia-smi -i <target gpu> -q -d ROW_REMAPPER 命令查看是否有 GPU 卡处于 Pending 状态,重置 GPU 卡或重启实例恢复。若重启无法恢复 提交工单 联系腾讯云支持。
GPU 内存使用率
仅保持观察
-
评估负载对显存占用。
GPU 使用率
仅保持观察
-
评估负载对 GPU 流处理器占用。
警告:重启实例可能会中断您的业务。请谨慎评估该操作。详情请参考 重启实例

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈