tencent cloud

弹性 MapReduce

实例事件

PDF
聚焦模式
字号
最后更新时间: 2026-04-30 15:20:58

功能介绍

实例事件中包含事件列表和事件策略。
事件列表:记录实例发生的关键变化事件或异常事件。
事件策略:支持根据业务情况自定义事件监控触发策略。

查看事件列表

1. 登录 EMR Serverless TCBase 控制台,从实例列表中找到需要查看的实例,单击监控进入监控告警页
2. 在监控告警页中选择实例事件,可直接查看当前实例所有操作事件。
严重程度说明如下:
致命:节点或服务的异常事件,人工干预处理,否则服务不可用,这类事件可能持续一段时间。
严重:暂时未造成服务或节点不可用问题,属于预警类,如果一直不处理会产生致命事件。
一般:记录集群发生的常规事件,一般无需特别处理。
3. 单击当日触发次数列值可查看事件的触发记录,同时可查看事件记录相关指标、日志或现场。

设置事件策略

1. 登录 EMR Serverless TCBase 控制台,从实例列表中找到需要查看的实例,单击监控进入监控告警页
2. 在监控告警页中选择事件策略,可以自定义设置事件监控触发策略。
3. 事件配置列表包含:事件名、事件发现策略、严重程度(致命/严重/一般)、开启监控,支持修改和保存。
4. 事件发现策略分两类:一类事件为系统固定策略事件,不支持用户修改;另一类事件会因客户业务标准的不同而变化,支持用户设置。
5. 事件策略可自定义是否开启事件监控,已开启监控的事件才支持在集群巡检的巡检项中选择。部分事件默认开启,部分事件默认开启且不可关闭。具体规则如下:
类别
事件名称
事件含义
建议&措施
默认值
严重程度
允许关闭
默认开启
节点
CPU 利用率连续高于阈值
机器 CPU 利用率 >= m,持续时间 t 秒(300<=t<=2592000)
节点扩容或升配
m=85, t=1800
严重
实例
节点角色进程重启
节点角色进程重启
人工排查
-
一般
进程被 OOMKiller kill
进程被 OOMKiller kill
1. 检查系统资源使用情况使用 top 或 htop 命令查看系统的 CPU、内存和磁盘使用情况。确认是否存在内存泄漏或者资源竞争的问题。
2. 分析 Java 堆内存使用情况,调整 JVM 参数。
3. 增加节点内存。
-
严重
TCBase
数据库访问不可用
PostgreSQL 数据库连续 n 次探活失败
通常可自愈,若持续出现请提单咨询
failure_count=3
致命
API 网关访问不可用
API 网关(Kong)持续探活失败
通常可自愈,若持续出现请提单咨询
failure_count=3
致命
数据库 HA 主从切换
PostgreSQL 发生主从切换
通常可自愈,若持续出现请提单咨询
-
严重
HA 集群无 Leader
检测周期内持续无 PostgreSQL Leader 节点,数据库不可写入
通常可自愈,若持续出现请提单咨询
no_leader_count=2
致命
主从复制延迟过高
PostgreSQL 主从复制延迟持续超过阈值,从库数据一致性存在风险
检查主库写入压力
lag_threshold_sec=30,sample_count=2
严重
WAL Receiver 断流
从库 WAL Receiver 不是 streaming 状态,主从复制中断
通常可自愈,若持续出现请提单咨询
sample_count=2
严重
Patroni 节点状态异常
Patroni 节点状态异常,可能影响 PostgreSQL HA 功能
通常可自愈,若持续出现请提单咨询
sample_count=2
严重
ETCD 不可用
ETCD 集群持续探活异常,可能影响 PostgreSQL HA 功能
通常可自愈,若持续出现请提单咨询
failure_count=3
致命
数据库连接数过高
PostgreSQL 连接使用率持续超过阈值,可能导致新连接被拒绝
检查连接泄漏、增大 max_connections
usage_pct=80, sample_count=2
严重
死锁频繁发生
检测周期内 PostgreSQL 死锁增量超过阈值,存在并发事务冲突
分析查询模式、检查锁顺序、优化事务隔离级别
deadlock_count=5
一般
缓存命中率过低
PostgreSQL 缓存命中率持续低于阈值,大量磁盘读取,性能下降
增大 shared_buffers、分析查询模式、添加索引
hit_ratio_threshold=90, sample_count=2
一般
认证服务不可用
TCBase 认证服务持续探活失败,用户认证/注册/JWT 签发功能受到影响
通常可自愈,若持续出现请提单咨询
failure_count=3
严重
REST API 服务不可用
PostgREST 组件持续探活失败,REST API 相关请求可能会受到影响
通常可自愈,若持续出现请提单咨询
failure_count=3
严重
Realtime 服务不可用
Realtime 实时服务持续探活失败,WebSocket 订阅和实时推送可能会受到影响
通常可自愈,若持续出现请提单咨询
failure_count=3
严重
Storage 服务不可用
Storage 对象存储服务持续探活失败,文件上传/下载/S3 协议可能会受到影响
通常可自愈,若持续出现请提单咨询
failure_count=3
严重
组件运行状态异常
TCBASE 某个组件持续探活失败
通常可自愈,若持续出现请提单咨询
failure_count=3
一般
数据库 Ping 延迟过高
数据库 Ping 延迟持续超过阈值,可能 I/O 瓶颈或高负载
检测数据库请求压力是否过大
latency_threshold=100ms,sample_count=2
一般
数据库容量预警
机器磁盘占用超过阈值,需要关注存储容量
删除非必要的数据
size_threshold=10737418240 (10GB)
一般
HAProxy 不可用
HAProxy 代理持续探活失败,通过 HAProxy 的数据库访问可能会受到影响
通常可自愈,若持续出现请提单咨询
failure_count=3
致命
Studio 管理面板不可用
Studio 管理面板持续探活失败,Web 管理界面可能会受到影响
通常可自愈,若持续出现请提单咨询
failure_count=3
一般

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈