动态与公告
- 产品动态
产品简介
购买指南
快速入门
操作指南
- 作业管理
- 作业开发
- 作业监控
- 作业日志
- 事件与诊断
- 元数据管理
- 快照管理
- 作业调优
- 依赖管理
- 集群管理
- 权限管理
SQL 开发指南
- 开发指南概述
- 术语和数据类型
- DDL 数据定义语句
- DML 数据操作语句
- MySQL CDC 多 Source 复用
- 整库同步（SQL）能力
- 上下游开发指南
- SET 控制语句
- 运算符和内置函数
- 标识符与保留字
Python 开发指南
ETL 开发指南
- 概述
- ETL 作业术语表
- 上下游开发指南
常见问题
联系我们

TaskManager Pod 异常退出事件

Download

聚焦模式

字号

最后更新时间： 2023-11-07 17:35:05

事件介绍
Flink 作业的 TaskManager 运行在 Kubernetes Pod 中，当 Pod 终止时，我们可以监测到该事件，并根据返回码、状态信息等维度，判断 Pod 是否发生了异常。
注意
 同一个 Pod 可能因为异常而被 Kubernetes 多次重建，因此如果您收到多条同样的事件，属于正常现象。
判定标准
系统实时监测 TaskManager Pod 的退出事件，判断退出时的状态码是否为 SIGTERM 造成的（即正常的退出码为 143）。如果退出码异常，说明该停止请求并非由 JobManager 发出，而是因为 TaskManager 自身发生了错误，此时会判定为 Pod 异常退出事件。
告警配置
用户可以对该事件 配置作业监控告警（异常事件），并实时接收触发和恢复的告警通知。
处理建议
状态码
可能原因
解决方案
137
作业内存占用过大，超出 Pod 配额，导致被 OOMKilled
根据 作业资源配置 增加算子并行度、提升 TaskManager 的 CU 规格
-1
兜底策略，表示 Pod 退出但是并未得到退出码，可能是系统错误等
请提 工单 联系技术支持排查
0
Pod 启动过程中，由于无法在用户绑定的子网中分配 IP（例如 IP 耗尽），导致启动失败退出
检查集群绑定的 VPC 的子网是否有剩余 IP。如果 IP 余量充足，请提 工单 联系技术支持排查
1
Flink 初始化期间发生了异常，导致启动失败
通常是基础类冲突或者关键配置文件被覆盖导致的，可在日志中搜索 Could not start cluster entrypoint 关键字附近的异常信息。
如果未能确定原因，请提 工单 联系技术支持排查
2
Flink JobManager 启动期间发生了致命错误
日志中搜索 Fatal error occurred in the cluster entrypoint 关键字附近的异常信息。
如果未能确定原因，请提 工单 联系技术支持排查
239
Flink 的执行线程发生了未捕获的致命错误
日志中搜索 produced an uncaught exception. Stopping the process 等关键字附近的异常信息。
如果未能确定原因，请提 工单 联系技术支持排查
﻿

帮助和支持

本页内容是否解决了您的问题？

您也可以联系销售或提交工单以寻求帮助。

填写满意度调查问卷，共创更好文档体验。

文档反馈

tencent cloud

流计算 Oceanus

TaskManager Pod 异常退出事件

事件介绍

判定标准

告警配置

处理建议

帮助和支持

状态码	可能原因	解决方案
137	作业内存占用过大，超出 Pod 配额，导致被 OOMKilled	根据作业资源配置增加算子并行度、提升 TaskManager 的 CU 规格
-1	兜底策略，表示 Pod 退出但是并未得到退出码，可能是系统错误等	请提工单联系技术支持排查
0	Pod 启动过程中，由于无法在用户绑定的子网中分配 IP（例如 IP 耗尽），导致启动失败退出	检查集群绑定的 VPC 的子网是否有剩余 IP。如果 IP 余量充足，请提工单联系技术支持排查
1	Flink 初始化期间发生了异常，导致启动失败	通常是基础类冲突或者关键配置文件被覆盖导致的，可在日志中搜索 `Could not start cluster entrypoint` 关键字附近的异常信息。如果未能确定原因，请提工单联系技术支持排查
2	Flink JobManager 启动期间发生了致命错误	日志中搜索 `Fatal error occurred in the cluster entrypoint` 关键字附近的异常信息。如果未能确定原因，请提工单联系技术支持排查
239	Flink 的执行线程发生了未捕获的致命错误	日志中搜索 `produced an uncaught exception. Stopping the process` 等关键字附近的异常信息。如果未能确定原因，请提工单联系技术支持排查