tencent cloud

流计算 Oceanus

动态与公告
产品动态
产品简介
产品概述
产品优势
应用场景
购买指南
计费概述
计费模式
退费说明
调整配置费用说明
快速入门
从零开始上手
创建独享集群
创建 SQL 作业
创建 JAR 作业
创建 ETL 作业
创建 Python 作业
操作指南
作业管理
作业开发
作业监控
作业日志
事件与诊断
元数据管理
快照管理
作业调优
依赖管理
集群管理
权限管理
SQL 开发指南
开发指南概述
术语和数据类型
DDL 数据定义语句
DML 数据操作语句
MySQL CDC 多 Source 复用
上下游开发指南
SET 控制语句
运算符和内置函数
标识符与保留字
Python 开发指南
ETL 开发指南
概述
ETL 作业术语表
上下游开发指南
常见问题
联系我们

快照失败事件

PDF
聚焦模式
字号
最后更新时间: 2023-11-07 16:43:10

事件介绍

“流计算快照失败” 事件表示当作业启用了周期快照(Checkpoint)后,某次快照因为超时等各类原因未能完成。 对于长时间运行的作业,偶尔一次的快照失败事件可能并不意味着作业出现了严重异常,只有当快照频繁失败时才需要针对具体情况进行应对。例如在 Flink UI 的 Checkpoints 面板中,某作业的快照 ID 6717发生失败时,显示如下图:



判定标准

事件的触发条件

作业的某次快照未能完成,快照的最终状态为 FAILED

事件的恢复条件

作业后续有一次快照成功完成,快照的最终状态为 COMPLETED

告警配置

用户可以对该事件 配置告警策略,并实时接收触发和恢复的告警通知。

处理建议

在事件面板,可以查看快照失败事件发生的原因。这里根据 Flink 执行链路的不同,可能显示出快照失败的直接原因,也有可能是一些较为泛化的报错,需要进一步分析。
我们还可以根据快照失败发生的时间点,通过 日志面板Flink UI 查看作业的 JobManager 和 TaskManager 在该时间点附近的报错日志。
如果 TaskManager 数量过多或日志量较大,未能在快照失败的时间点找到报错,还可以通过我们提供的 日志快捷诊断 功能,全局检索发生该事件的作业实例 ID 的异常日志。
如果上述诊断仍然未能发现问题所在,则可以通过 查看作业监控信息 来判断是否出现了资源超用等问题。特别地,可以重点关注 TaskManager 的 CPU 用量、堆内存用量、Full GC 次数和时间等指标,检查是否存在明显异常。

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈