产品动态
RUNNING 状态变为 FAILED、RESTARTING 等异常状态时(后续 Flink JobManager 负责自动恢复作业,耗时约 10s,恢复后运行实例 ID 不变)。restart-strategy.fixed-delay.attempts 参数控制,默认为5,实际生产环境下建议调大),导致 JobManager 和 TaskManager 整体退出时(后续会被系统从最近一次成功的快照点尝试恢复,耗时约2分钟,恢复后运行实例 ID 会增加1)。RUNNING 状态时,会发送 “作业失败已恢复” 事件,代表本次告警结束。from RUNNING to FAILED 关键字前后的报错信息是导致作业失败的直接原因。我们建议结合 JobManager 和 TaskManager 的日志一起分析。文档反馈