tencent cloud

腾讯云可观测平台

动态与公告
产品动态
产品简介
产品概述
产品优势
基本功能
基本概念
应用场景
使用限制
购买指南
云产品监控
应用性能监控
终端性能监控
前端性能监控
云拨测
Prometheus 监控服务
Grafana 服务
事件总线
云压测
快速入门
监控概览
实例分组
云产品监控
应用性能监控
云拨测
云压测
Prometheus 监控服务
Grafana 服务
创建 Dashboard
事件总线
告警服务
云产品监控
云产品监控指标
控制台操作指南
云服务器监控组件
云产品监控对接 Grafana
故障处理
实践教程
应用性能监控
应用性能监控简介
接入指南
控制台操作指南
实践教程
参考信息
常见问题
终端性能监控
终端性能监控概述
控制台操作指南
接入指南
实践教程
前端性能监控
前端性能监控简介
控制台操作指南
接入指南
常见问题
云拨测
产品简介
控制台操作指南
常见问题
云压测
云压测概述
控制台操作指南
实践教程
JavaScript API 列表
常见问题
Prometheus 监控
Prometheus 监控简介
接入指南
控制台操作指南
实践教程
Terraform
常见问题
Grafana 服务
产品简介
控制台操作指南
Grafana 平台常用功能指引
常见问题
Dashboard
什么是 Dashboard
控制台操作指南
告警管理
控制台操作指南
故障处理
常见问题
事件总线
事件总线简介
控制台操作指南
实践教程
常见问题
报表管理
常见问题
腾讯云可观测平台常见问题
告警服务相关
一般性问题
监控图表相关
云服务器监控组件相关
动态阈值告警相关
云监控对接 Grafana 相关
文档阅读指南
相关协议
应用性能监控服务等级协议
APM 隐私协议
APM 数据处理和安全协议
前端性能监控服务等级协议
终端性能监控服务等级协议
云拨测服务等级协议
Prometheus 监控服务服务等级协议
Grafana 服务服务等级协议
云压测服务等级协议
云压测使用限制
Cloud Monitor Service Level Agreement
词汇表

云服务器无监控数据

PDF
聚焦模式
字号
最后更新时间: 2024-01-27 17:37:34

简介

云服务器指标数据采集依赖于监控Agent。 若您没法正常获取监控指标数据,请参考本文排查故障。 建议您首先根据 安装监控组件 重新安装监控Agent,并等待3分钟查看监控数据是否恢复。若安装遇到问题或监控数据未恢复,请阅读下文详细排查。

故障原因及处理方法

无监控数据原因
处理方法
未安装监控 Agent 或未启动 Agent
参考 步骤一 排查并处理故障
无法解析数据上报域名
参考 步骤二 排查并处理故障
Agent获取uuid错误
参考 步骤三 排查并处理故障
云服务器重启或关机
参考 步骤四 排查并处理故障
云服务器高负载
参考 步骤五 排查并处理故障

处理步骤

步骤一:检查是否安装监控组件 Agent 或是否启动 Agent

Linux 和 Windows 未安装监控 Agent 或未启动 Agent 的排查步骤不一致,详情请参考下文。
Linux
Windows
1. 执行以下命令,查看 Agent 是否安装成功:
crontab -l |grep stargate
若如图所示则表示已安装。

若未安装成功,请参考 安装监控组件 安装 Agent。
2. 检查 Agent 是否运行正常 执行以下命令,查看 Agent 是否正常运行:
ps ax | grep sgagent
ps ax | grep barad_agent
若如图所示则运行正常(注意barad_agent 进程数为3个):

若无显示或进程数量不符,则说明 Agent 异常,请以 root 账号执行以下命令启动 Agent ,提示stargate agent run succbarad_agent run succ,表示重启成功。
cd /usr/local/qcloud/stargate/admin
./restart.sh
cd /usr/local/qcloud/monitor/barad/admin
./stop.sh
./trystart.sh
说明:
Agent启动后,等待3分钟后云服务器控制台确认是否已有监控数据。
运行服务(services.msc),查看 Agent 是否安装成功和是否启动。若 QCloud BaradAgent Monitor 和 QCloud Stargate Manager 服务未显示 “Running” 或“正在运行”,则说明服务未启动。可单击对应的服务名称,启动服务。



说明:
若 Agent 已启动,仍无监控数据,可继续查看下面排查思路。
未安装监控组件会导致无法对您的服务器做更细致的监控,若服务器故障则将无法正常通知,存在高危风险。有关安装监控组件的更多内容,请参见 安装云服务器监控组件 文档。

步骤二:检查上报域名

监控 Agent 正常工作依赖下面 4 个域名正常解析:
update2.agent.tencentyun.com
receiver.barad.tencentyun.com
custom.message.tencentyun.com
metadata.tencentyun.com
Linux 和 Windows 检查上报域名和修复域名步骤不一致,详情请参考下文。
Linux
Windows
1. 检查上报域名是否可以正常解析 执行下列命令,确认4个域名是否都能正常解析:
ping -c 1 update2.agent.tencentyun.com
ping -c 1 receiver.barad.tencentyun.com
ping -c 1 custom.message.tencentyun.com
ping -c 1 metadata.tencentyun.com
正常情况下,在云服务器上可以正常解析以上4个域名,若上面的命令提示 unknown host 则表示域名无法解析,参考下列的方式修复。
2. 修复域名解析 腾讯云在不同地域均提供了可靠的内网 DNS 服务器,建议不要覆盖默认 DNS 配置。如果需要修改默认 DNS 配置,可以参考以下方式修复上述 4 个域名的解析问题。
1. 如果使用自建 DNS 服务或第三方 DNS 服务,建议在/etc/resolv.conf中追加腾讯云提供的内网DNS,具体请参见 云服务器内网 DNS列表
2. 如果使用自建 DNS,也可以把以上4个域名加到自建 DNS 中,域名和对应解析 IP 如下:
域名
IP
update2.agent.tencentyun.com
169.254.0.15
receiver.barad.tencentyun.com
169.254.0.4
custom.message.tencentyun.com
169.254.0.5
metadata.tencentyun.com
169.254.10.10
3. 如果以上两个方式不可行,可以在服务器的`/etc/hosts`文件中增加如下配置:
169.254.0.15 update2.agent.tencentyun.com
169.254.0.4 receiver.barad.tencentyun.com
169.254.0.5 custom.message.tencentyun.com
169.254.10.10 metadata.tencentyun.com
说明:
修复后,再次检查域名解析是否正常。域名解析正常后,等待3分钟后到云服务器控制台确认是否已有监控数据。
1. 检查上报域名是否可以正常解析 执行下列命令,确认4个域名是否都能正常解析:
ping -n 1 update2.agent.tencentyun.com
ping -n 1 receiver.barad.tencentyun.com
ping -n 1 custom.message.tencentyun.com
ping -n 1 metadata.tencentyun.com
正常情况下,在云服务器上可以正常解析以上4个域名,若提示“找不到主机”则表示域名无法解析,参考下列的方式修复。
2. 修复域名解析
腾讯云在不同地域均提供了可靠的内网 DNS 服务器,建议不要覆盖默认 DNS 配置。如果需要修改默认 DNS 配置,可以参考以下方式修复上述 4 个域名的解析问题。
1. 登录 Windows 云服务器。
2. 在操作系统界面,打开控制面板 > 网络和共享中心 > 更改适配器设备
3. 右键单击以太网,选择属性,打开 “以太网 属性” 窗口。
4. 在 “以太网 属性” 窗口,双击打开 **Internet 协议版本 4 (TCP/IPv4)**。如下图所示:


5. 选择使用下面的 DNS 服务器地址,根据 内网 DNS 列表中对应的不同地域,修改 DNS IP。修改完后单击确定即可。


6. 如果上述方式不可行,您进入 C:\\Windows\\System32\\drivers\\etc\\hosts,在 hosts 配置文件增加如下配置:
169.254.0.15 update2.agent.tencentyun.com
169.254.0.4 receiver.barad.tencentyun.com
169.254.0.5 custom.message.tencentyun.com
169.254.10.10 metadata.tencentyun.com
7. 运行 services.msc ,按鼠标右键单击重启启动按钮,重启 QCloud BaradAgent Monitor 和 QCloud Stargate Manager 服务即可。


说明:
修复后,等待3分钟,然后到云服务器控制台确认是否已有监控数据。
若重启后仍无监控数据,请参考 安装云服务器监控组件 卸载并重装 Agent。


步骤三:检查 uuid 是否正确

目前只有 Linux 会出现 uuid 配置不正确问题,详情请参考下文。
1. 进入 云服务器控制台 ,进入实例详情查看 uuid 。


2. 登录云服务器,执行以下命令查看 uuid 。
cat /sys/class/dmi/id/product_serial
若服务器上 uuid 和云服务器控制台展示的 uuid 不一致,以 root 账号执行下列命令修复 uuid 并重启 Agent。
echo `cat /etc/uuid |awk -F '= ' '{print $NF}'` > /etc/uuid_to_serial; mount --bind /etc/uuid_to_serial /sys/class/dmi/id/product_serial
cd /usr/local/qcloud/stargate/admin
./restart.sh
cd /usr/local/qcloud/monitor/barad/admin
./stop.sh
./trystart.sh
说明:
修复后,等待3分钟,然后到云服务器控制台确认是否已有监控数据。

步骤四:检查云服务器操作日志

云服务器操作关机后处于关机状态,会导致监控组件离线并且没有数据。 用户通过云服务器控制台或者登录云服务器,操作重启,升级云服务器,重装,制作镜像等常见的云服务器运维操作,都会使云服务器监控数据上报超时导致离线。
问题排查方式: 可以根据当时时间点排查云服务器是否有存在相关的运维操作,操作日志可以进入云服务器详情页面中操作日志中查看。




步骤五:检查云服务器负载

云服务器 CPU 高负载,内存使用占满,带宽占用过高都会导致监控组件上报数据异常。
问题排查方式:
CPU 高负载:详细排查步骤请查看 云服务器 CPU 或内存占用过高
内存占用过高:可以登录云服务器或者查看监控图表是否有存在内存 使用达到100%的情况 ,若达到100%,可以根据实际情况来扩容服务。
带宽占用过高:详细排查步骤请查看 云服务器带宽使用率过高

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈