动态与公告
- 产品动态
产品简介
购买指南
快速入门
操作指南
- 作业管理
- 作业开发
- 作业监控
- 作业日志
- 事件与诊断
- 元数据管理
- 快照管理
- 作业调优
- 依赖管理
- 集群管理
- 权限管理
SQL 开发指南
- 开发指南概述
- 术语和数据类型
- DDL 数据定义语句
- DML 数据操作语句
- MySQL CDC 多 Source 复用
- 整库同步（SQL）能力
- 上下游开发指南
- SET 控制语句
- 运算符和内置函数
- 标识符与保留字
Python 开发指南
ETL 开发指南
- 概述
- ETL 作业术语表
- 上下游开发指南
常见问题
联系我们

作业失败事件

Download

聚焦模式

字号

最后更新时间： 2026-05-13 16:44:34

事件介绍
流计算作业失败事件表示 Flink 作业由运行状态进入了失败或重启等异常状态，该现象可能引起数据处理中断、下游输出延迟等问题。
判定标准
事件的触发条件
1. 当 Flink 作业在运行期间，由于突发情况，从 RUNNING 状态变为 FAILED、RESTARTING 等异常状态时（后续 Flink JobManager 负责自动恢复作业，耗时约 10s，恢复后运行实例 ID 不变）。
2. 当 Flink 作业由于重启次数过多或过于频繁，超出 重启策略 的限制（该阈值通常由 restart-strategy.fixed-delay.attempts 参数控制，默认为5，实际生产环境下建议调大），导致 JobManager 和 TaskManager 整体退出时（后续会被系统从最近一次成功的快照点尝试恢复，耗时约2分钟，恢复后运行实例 ID 会增加1）。
事件的恢复条件
当 Flink 或 Oceanus 将作业重新恢复到 RUNNING 状态时，会发送 “作业失败已恢复” 事件，代表本次告警结束。
告警配置
用户可以对该事件 配置告警策略，并实时接收触发和恢复的告警通知。
处理建议
首先可以通过我们提供的 日志快捷诊断 功能，检索发生该事件的作业实例 ID 的异常日志。通常而言，from RUNNING to FAILED 关键字前后的报错信息是导致作业失败的直接原因。我们建议结合 JobManager 和 TaskManager 的日志一起分析。
如果上述诊断仍然未能发现问题所在，则可以通过 查看作业监控信息 来判断是否出现了资源超用等问题。重点可以关注 TaskManager 的 CPU 用量、堆内存用量、Full GC 次数和时间等指标，检查是否存在明显异常。

帮助和支持

本页内容是否解决了您的问题？

您也可以联系销售或提交工单以寻求帮助。

填写满意度调查问卷，共创更好文档体验。

文档反馈

tencent cloud

流计算 Oceanus

作业失败事件

事件介绍

判定标准

事件的触发条件

事件的恢复条件

告警配置

处理建议

帮助和支持