动态与公告
- 产品动态
- 产品公告
- 安全公告
产品简介
- 产品概述
- 产品优势
- 产品架构
- 产品功能
- 应用场景
- 约束与限制
- 技术支持范围
- 产品发行版
购买指南
- EMR on CVM 计费说明
- EMR on TKE 计费说明
- EMR Serverless HBase 计费说明
- EMR Serverless TCBase 计费说明
快速入门
- EMR on CVM 快速入门
- EMR on TKE 快速入门
EMR on CVM 操作指南
- 规划集群
- 管理权限
- 配置集群
- 管理集群
- 管理服务
- 监控告警
- 智能管家
EMR on TKE 操作指南
- EMR on TKE 简介
- 配置集群
- 管理集群
- 管理服务
- 监控运维
- 应用分析
EMR Serverless HBase 操作指南
- EMR Serverless HBase 产品简介
- 配额与限制
- 规划实例
- 管理实例
- 监控告警
- 开发指南
EMR Serverless TCBase 操作指南
- EMR Serverless TCBase 产品简介
- 管理实例
- 管理服务
- 监控告警
EMR 开发指南
- Hadoop开发指南
- Spark 开发指南
- HBASE开发指南
- Phoenix on Hbase 开发指南
- Hive 开发指南
- Presto开发指南
- Sqoop 开发指南
- Hue 开发指南
- Oozie 开发指南
- Flume 开发指南
- Kerberos 开发指南
- Knox 开发指南
- Alluxio 开发指南
- Kylin 开发指南
- Livy 开发指南
- Kyuubi 开发指南
- Zeppelin 开发指南
- Hudi 开发指南
- Superset 开发指南
- Impala 开发指南
- Druid 开发指南
- Tensorflow 开发指南
- Kudu 开发指南
- Ranger 开发指南
- Kafka 开发指南
- Iceberg 开发指南
- StarRocks 开发指南
- Flink 开发指南
- JupyterLab 开发指南
- MLflow 开发指南
实践教程
- EMR on CVM 运维实践
- 数据迁移实践
- 自定义伸缩实践教程
API 文档
- History
- Introduction
- API Category
- Cluster Resource Management APIs
- Cluster Services APIs
- User Management APIs
- Data Inquiry APIs
- Scaling APIs
- Configuration APIs
- Other APIs
- Serverless HBase APIs
- YARN Resource Scheduling APIs
- Making API Requests
- Data Types
- Error Codes
常见问题
- EMR on CVM常见问题
服务等级协议
联系我们

实例事件

聚焦模式

字号

最后更新时间： 2026-04-30 15:20:58

功能介绍
实例事件中包含事件列表和事件策略。
事件列表：记录实例发生的关键变化事件或异常事件。
事件策略：支持根据业务情况自定义事件监控触发策略。
查看事件列表
1. 登录 EMR Serverless TCBase 控制台，从实例列表中找到需要查看的实例，单击监控进入监控告警页。
2. 在监控告警页中选择实例事件，可直接查看当前实例所有操作事件。
严重程度说明如下：
致命：节点或服务的异常事件，人工干预处理，否则服务不可用，这类事件可能持续一段时间。
严重：暂时未造成服务或节点不可用问题，属于预警类，如果一直不处理会产生致命事件。
一般：记录集群发生的常规事件，一般无需特别处理。
3. 单击当日触发次数列值可查看事件的触发记录，同时可查看事件记录相关指标、日志或现场。
设置事件策略
1. 登录 EMR Serverless TCBase 控制台，从实例列表中找到需要查看的实例，单击监控进入监控告警页。
2. 在监控告警页中选择事件策略，可以自定义设置事件监控触发策略。
3. 事件配置列表包含：事件名、事件发现策略、严重程度（致命/严重/一般）、开启监控，支持修改和保存。
4. 事件发现策略分两类：一类事件为系统固定策略事件，不支持用户修改；另一类事件会因客户业务标准的不同而变化，支持用户设置。
5. 事件策略可自定义是否开启事件监控，已开启监控的事件才支持在集群巡检的巡检项中选择。部分事件默认开启，部分事件默认开启且不可关闭。具体规则如下：
类别
事件名称
事件含义
建议&措施
默认值
严重程度
允许关闭
默认开启
节点
CPU 利用率连续高于阈值
机器 CPU 利用率 >= m，持续时间 t 秒（300<=t<=2592000）
节点扩容或升配
m=85, t=1800
严重
是
是
实例
节点角色进程重启
节点角色进程重启
人工排查
-
一般
否
是
﻿
进程被 OOMKiller kill
进程被 OOMKiller kill
1. 检查系统资源使用情况使用 top 或 htop 命令查看系统的 CPU、内存和磁盘使用情况。确认是否存在内存泄漏或者资源竞争的问题。
2. 分析 Java 堆内存使用情况，调整 JVM 参数。
3. 增加节点内存。
-
严重
是
是
TCBase
数据库访问不可用
PostgreSQL 数据库连续 n 次探活失败
通常可自愈，若持续出现请提单咨询
failure_count=3
致命
是
是
﻿
API 网关访问不可用
API 网关（Kong）持续探活失败
通常可自愈，若持续出现请提单咨询
failure_count=3
致命
是
是
﻿
数据库 HA 主从切换
PostgreSQL 发生主从切换
通常可自愈，若持续出现请提单咨询
-
严重
是
是
﻿
HA 集群无 Leader
检测周期内持续无 PostgreSQL Leader 节点，数据库不可写入
通常可自愈，若持续出现请提单咨询
no_leader_count=2
致命
是
是
﻿
主从复制延迟过高
PostgreSQL 主从复制延迟持续超过阈值，从库数据一致性存在风险
检查主库写入压力
lag_threshold_sec=30,sample_count=2
严重
是
是
﻿
WAL Receiver 断流
从库 WAL Receiver 不是 streaming 状态，主从复制中断
通常可自愈，若持续出现请提单咨询
sample_count=2
严重
是
是
﻿
Patroni 节点状态异常
Patroni 节点状态异常，可能影响 PostgreSQL HA 功能
通常可自愈，若持续出现请提单咨询
sample_count=2
严重
是
是
﻿
ETCD 不可用
ETCD 集群持续探活异常，可能影响 PostgreSQL HA 功能
通常可自愈，若持续出现请提单咨询
failure_count=3
致命
是
是
﻿
数据库连接数过高
PostgreSQL 连接使用率持续超过阈值，可能导致新连接被拒绝
检查连接泄漏、增大 max_connections
usage_pct=80, sample_count=2
严重
是
是
﻿
死锁频繁发生
检测周期内 PostgreSQL 死锁增量超过阈值，存在并发事务冲突
分析查询模式、检查锁顺序、优化事务隔离级别
deadlock_count=5
一般
是
否
﻿
缓存命中率过低
PostgreSQL 缓存命中率持续低于阈值，大量磁盘读取，性能下降
增大 shared_buffers、分析查询模式、添加索引
hit_ratio_threshold=90， sample_count=2
一般
是
否
﻿
认证服务不可用
TCBase 认证服务持续探活失败，用户认证/注册/JWT 签发功能受到影响
通常可自愈，若持续出现请提单咨询
failure_count=3
严重
是
是
﻿
REST API 服务不可用
PostgREST 组件持续探活失败，REST API 相关请求可能会受到影响
通常可自愈，若持续出现请提单咨询
failure_count=3
严重
是
是
﻿
Realtime 服务不可用
Realtime 实时服务持续探活失败，WebSocket 订阅和实时推送可能会受到影响
通常可自愈，若持续出现请提单咨询
failure_count=3
严重
是
是
﻿
Storage 服务不可用
Storage 对象存储服务持续探活失败，文件上传/下载/S3 协议可能会受到影响
通常可自愈，若持续出现请提单咨询
failure_count=3
严重
是
是
﻿
组件运行状态异常
TCBASE 某个组件持续探活失败
通常可自愈，若持续出现请提单咨询
failure_count=3
一般
是
是
﻿
数据库 Ping 延迟过高
数据库 Ping 延迟持续超过阈值，可能 I/O 瓶颈或高负载
检测数据库请求压力是否过大
latency_threshold=100ms,sample_count=2
一般
是
否
﻿
数据库容量预警
机器磁盘占用超过阈值，需要关注存储容量
删除非必要的数据
size_threshold=10737418240 (10GB)
一般
是
否
﻿
HAProxy 不可用
HAProxy 代理持续探活失败，通过 HAProxy 的数据库访问可能会受到影响
通常可自愈，若持续出现请提单咨询
failure_count=3
致命
是
是
﻿
Studio 管理面板不可用
Studio 管理面板持续探活失败，Web 管理界面可能会受到影响
通常可自愈，若持续出现请提单咨询
failure_count=3
一般
是
是

帮助和支持

本页内容是否解决了您的问题？

您也可以联系销售或提交工单以寻求帮助。

填写满意度调查问卷，共创更好文档体验。

文档反馈

tencent cloud

弹性 MapReduce

实例事件

功能介绍

查看事件列表

设置事件策略

帮助和支持

类别	事件名称	事件含义	建议&措施	默认值	严重程度	允许关闭	默认开启
节点	CPU 利用率连续高于阈值	机器 CPU 利用率 >= m，持续时间 t 秒（300<=t<=2592000）	节点扩容或升配	m=85, t=1800	严重	是	是
实例	节点角色进程重启	节点角色进程重启	人工排查	-	一般	否	是
实例		进程被 OOMKiller kill	进程被 OOMKiller kill	1. 检查系统资源使用情况使用 top 或 htop 命令查看系统的 CPU、内存和磁盘使用情况。确认是否存在内存泄漏或者资源竞争的问题。 2. 分析 Java 堆内存使用情况，调整 JVM 参数。 3. 增加节点内存。	-	严重	是	是
TCBase	数据库访问不可用	PostgreSQL 数据库连续 n 次探活失败	通常可自愈，若持续出现请提单咨询	failure_count=3	致命	是	是
		API 网关访问不可用	API 网关（Kong）持续探活失败	通常可自愈，若持续出现请提单咨询	failure_count=3	致命	是	是
		数据库 HA 主从切换	PostgreSQL 发生主从切换	通常可自愈，若持续出现请提单咨询	-	严重	是	是
		HA 集群无 Leader	检测周期内持续无 PostgreSQL Leader 节点，数据库不可写入	通常可自愈，若持续出现请提单咨询	no_leader_count=2	致命	是	是
		主从复制延迟过高	PostgreSQL 主从复制延迟持续超过阈值，从库数据一致性存在风险	检查主库写入压力	lag_threshold_sec=30,sample_count=2	严重	是	是
		WAL Receiver 断流	从库 WAL Receiver 不是 streaming 状态，主从复制中断	通常可自愈，若持续出现请提单咨询	sample_count=2	严重	是	是
		Patroni 节点状态异常	Patroni 节点状态异常，可能影响 PostgreSQL HA 功能	通常可自愈，若持续出现请提单咨询	sample_count=2	严重	是	是
		ETCD 不可用	ETCD 集群持续探活异常，可能影响 PostgreSQL HA 功能	通常可自愈，若持续出现请提单咨询	failure_count=3	致命	是	是
		数据库连接数过高	PostgreSQL 连接使用率持续超过阈值，可能导致新连接被拒绝	检查连接泄漏、增大 max_connections	usage_pct=80, sample_count=2	严重	是	是
		死锁频繁发生	检测周期内 PostgreSQL 死锁增量超过阈值，存在并发事务冲突	分析查询模式、检查锁顺序、优化事务隔离级别	deadlock_count=5	一般	是	否
		缓存命中率过低	PostgreSQL 缓存命中率持续低于阈值，大量磁盘读取，性能下降	增大 shared_buffers、分析查询模式、添加索引	hit_ratio_threshold=90， sample_count=2	一般	是	否
		认证服务不可用	TCBase 认证服务持续探活失败，用户认证/注册/JWT 签发功能受到影响	通常可自愈，若持续出现请提单咨询	failure_count=3	严重	是	是
		REST API 服务不可用	PostgREST 组件持续探活失败，REST API 相关请求可能会受到影响	通常可自愈，若持续出现请提单咨询	failure_count=3	严重	是	是
		Realtime 服务不可用	Realtime 实时服务持续探活失败，WebSocket 订阅和实时推送可能会受到影响	通常可自愈，若持续出现请提单咨询	failure_count=3	严重	是	是
		Storage 服务不可用	Storage 对象存储服务持续探活失败，文件上传/下载/S3 协议可能会受到影响	通常可自愈，若持续出现请提单咨询	failure_count=3	严重	是	是
		组件运行状态异常	TCBASE 某个组件持续探活失败	通常可自愈，若持续出现请提单咨询	failure_count=3	一般	是	是
		数据库 Ping 延迟过高	数据库 Ping 延迟持续超过阈值，可能 I/O 瓶颈或高负载	检测数据库请求压力是否过大	latency_threshold=100ms,sample_count=2	一般	是	否
		数据库容量预警	机器磁盘占用超过阈值，需要关注存储容量	删除非必要的数据	size_threshold=10737418240 (10GB)	一般	是	否
		HAProxy 不可用	HAProxy 代理持续探活失败，通过 HAProxy 的数据库访问可能会受到影响	通常可自愈，若持续出现请提单咨询	failure_count=3	致命	是	是
		Studio 管理面板不可用	Studio 管理面板持续探活失败，Web 管理界面可能会受到影响	通常可自愈，若持续出现请提单咨询	failure_count=3	一般	是	是