tencent cloud

流计算 Oceanus

动态与公告
产品动态
产品简介
产品概述
产品优势
应用场景
购买指南
计费概述
计费模式
退费说明
调整配置费用说明
快速入门
从零开始上手
创建独享集群
创建 SQL 作业
创建 JAR 作业
创建 ETL 作业
创建 Python 作业
操作指南
作业管理
作业开发
作业监控
作业日志
事件与诊断
元数据管理
快照管理
作业调优
依赖管理
集群管理
权限管理
SQL 开发指南
开发指南概述
术语和数据类型
DDL 数据定义语句
DML 数据操作语句
MySQL CDC 多 Source 复用
上下游开发指南
SET 控制语句
运算符和内置函数
标识符与保留字
Python 开发指南
ETL 开发指南
概述
ETL 作业术语表
上下游开发指南
常见问题
联系我们

TaskManager Pod 异常退出事件

PDF
聚焦模式
字号
最后更新时间: 2023-11-07 17:35:05

事件介绍

Flink 作业的 TaskManager 运行在 Kubernetes Pod 中,当 Pod 终止时,我们可以监测到该事件,并根据返回码、状态信息等维度,判断 Pod 是否发生了异常。
注意
同一个 Pod 可能因为异常而被 Kubernetes 多次重建,因此如果您收到多条同样的事件,属于正常现象。

判定标准

系统实时监测 TaskManager Pod 的退出事件,判断退出时的状态码是否为 SIGTERM 造成的(即正常的退出码为 143)。如果退出码异常,说明该停止请求并非由 JobManager 发出,而是因为 TaskManager 自身发生了错误,此时会判定为 Pod 异常退出事件。

告警配置

用户可以对该事件 配置作业监控告警(异常事件),并实时接收触发和恢复的告警通知。

处理建议

状态码
可能原因
解决方案
137
作业内存占用过大,超出 Pod 配额,导致被 OOMKilled
根据 作业资源配置 增加算子并行度、提升 TaskManager 的 CU 规格
-1
兜底策略,表示 Pod 退出但是并未得到退出码,可能是系统错误等
请提 工单 联系技术支持排查
0
Pod 启动过程中,由于无法在用户绑定的子网中分配 IP(例如 IP 耗尽),导致启动失败退出
检查集群绑定的 VPC 的子网是否有剩余 IP。如果 IP 余量充足,请提 工单 联系技术支持排查
1
Flink 初始化期间发生了异常,导致启动失败
通常是基础类冲突或者关键配置文件被覆盖导致的,可在日志中搜索 Could not start cluster entrypoint 关键字附近的异常信息。
如果未能确定原因,请提 工单 联系技术支持排查
2
Flink JobManager 启动期间发生了致命错误
日志中搜索 Fatal error occurred in the cluster entrypoint 关键字附近的异常信息。
如果未能确定原因,请提 工单 联系技术支持排查
239
Flink 的执行线程发生了未捕获的致命错误
日志中搜索 produced an uncaught exception. Stopping the process 等关键字附近的异常信息。
如果未能确定原因,请提 工单 联系技术支持排查


帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈