类别 | 事件名称 | 事件含义 | 建议&措施 | 默认值 | 严重程度 | 允许关闭 | 默认开启 |
节点 | CPU 利用率连续高于阈值 | 机器 CPU 利用率 >= m,持续时间 t 秒(300<=t<=2592000) | 节点扩容或升配 | m=85, t=1800 | 严重 | 是 | 是 |
实例 | 节点角色进程重启 | 节点角色进程重启 | 人工排查 | - | 一般 | 否 | 是 |
| 进程被 OOMKiller kill | 进程被 OOMKiller kill | 1. 检查系统资源使用情况使用 top 或 htop 命令查看系统的 CPU、内存和磁盘使用情况。确认是否存在内存泄漏或者资源竞争的问题。 2. 分析 Java 堆内存使用情况,调整 JVM 参数。 3. 增加节点内存。 | - | 严重 | 是 | 是 |
TCBase | 数据库访问不可用 | PostgreSQL 数据库连续 n 次探活失败 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 致命 | 是 | 是 |
| API 网关访问不可用 | API 网关(Kong)持续探活失败 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 致命 | 是 | 是 |
| 数据库 HA 主从切换 | PostgreSQL 发生主从切换 | 通常可自愈,若持续出现请提单咨询 | - | 严重 | 是 | 是 |
| HA 集群无 Leader | 检测周期内持续无 PostgreSQL Leader 节点,数据库不可写入 | 通常可自愈,若持续出现请提单咨询 | no_leader_count=2 | 致命 | 是 | 是 |
| 主从复制延迟过高 | PostgreSQL 主从复制延迟持续超过阈值,从库数据一致性存在风险 | 检查主库写入压力 | lag_threshold_sec=30,sample_count=2 | 严重 | 是 | 是 |
| WAL Receiver 断流 | 从库 WAL Receiver 不是 streaming 状态,主从复制中断 | 通常可自愈,若持续出现请提单咨询 | sample_count=2 | 严重 | 是 | 是 |
| Patroni 节点状态异常 | Patroni 节点状态异常,可能影响 PostgreSQL HA 功能 | 通常可自愈,若持续出现请提单咨询 | sample_count=2 | 严重 | 是 | 是 |
| ETCD 不可用 | ETCD 集群持续探活异常,可能影响 PostgreSQL HA 功能 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 致命 | 是 | 是 |
| 数据库连接数过高 | PostgreSQL 连接使用率持续超过阈值,可能导致新连接被拒绝 | 检查连接泄漏、增大 max_connections | usage_pct=80, sample_count=2 | 严重 | 是 | 是 |
| 死锁频繁发生 | 检测周期内 PostgreSQL 死锁增量超过阈值,存在并发事务冲突 | 分析查询模式、检查锁顺序、优化事务隔离级别 | deadlock_count=5 | 一般 | 是 | 否 |
| 缓存命中率过低 | PostgreSQL 缓存命中率持续低于阈值,大量磁盘读取,性能下降 | 增大 shared_buffers、分析查询模式、添加索引 | hit_ratio_threshold=90, sample_count=2 | 一般 | 是 | 否 |
| 认证服务不可用 | TCBase 认证服务持续探活失败,用户认证/注册/JWT 签发功能受到影响 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 严重 | 是 | 是 |
| REST API 服务不可用 | PostgREST 组件持续探活失败,REST API 相关请求可能会受到影响 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 严重 | 是 | 是 |
| Realtime 服务不可用 | Realtime 实时服务持续探活失败,WebSocket 订阅和实时推送可能会受到影响 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 严重 | 是 | 是 |
| Storage 服务不可用 | Storage 对象存储服务持续探活失败,文件上传/下载/S3 协议可能会受到影响 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 严重 | 是 | 是 |
| 组件运行状态异常 | TCBASE 某个组件持续探活失败 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 一般 | 是 | 是 |
| 数据库 Ping 延迟过高 | 数据库 Ping 延迟持续超过阈值,可能 I/O 瓶颈或高负载 | 检测数据库请求压力是否过大 | latency_threshold=100ms,sample_count=2 | 一般 | 是 | 否 |
| 数据库容量预警 | 机器磁盘占用超过阈值,需要关注存储容量 | 删除非必要的数据 | size_threshold=10737418240 (10GB) | 一般 | 是 | 否 |
| HAProxy 不可用 | HAProxy 代理持续探活失败,通过 HAProxy 的数据库访问可能会受到影响 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 致命 | 是 | 是 |
| Studio 管理面板不可用 | Studio 管理面板持续探活失败,Web 管理界面可能会受到影响 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 一般 | 是 | 是 |
文档反馈