tencent cloud

流计算 Oceanus

动态与公告
产品动态
产品简介
产品概述
产品优势
应用场景
购买指南
计费概述
计费模式
退费说明
调整配置费用说明
快速入门
从零开始上手
创建独享集群
创建 SQL 作业
创建 JAR 作业
创建 ETL 作业
创建 Python 作业
操作指南
作业管理
作业开发
作业监控
作业日志
事件与诊断
元数据管理
快照管理
作业调优
依赖管理
集群管理
权限管理
SQL 开发指南
开发指南概述
术语和数据类型
DDL 数据定义语句
DML 数据操作语句
MySQL CDC 多 Source 复用
上下游开发指南
SET 控制语句
运算符和内置函数
标识符与保留字
Python 开发指南
ETL 开发指南
概述
ETL 作业术语表
上下游开发指南
常见问题
联系我们

TaskManager CPU 负载过高事件

PDF
聚焦模式
字号
最后更新时间: 2023-11-08 10:21:08

事件介绍

Flink 作业的 TaskManager 负责执行用户定义的各类算子逻辑,CPU 负载过高可能会导致吞吐量下降,以及延迟的上升等各类问题。当作业的大多数 TaskManager 长期接近满载时,会触发本事件。
注意
该功能目前为 Beta 版,暂不支持规则的自定义,后续该能力会陆续上线。

判定标准

系统每5分钟会检测一次 Flink 作业中所有 TaskManager 的 CPU 使用率指标。
当某个 TaskManager 的 CPU 使用率连续5个数据点的值都超过90%,则说明这个 TaskManager 处于 CPU 超高负载状态。
如果该作业超过80%的 TaskManager 都处于超高负载状态,则会触发该事件的推送。
注意
为了避免频繁告警,每个作业的每个运行实例 ID 每小时最多触发一次该事件的推送。

告警配置

用户可以对该事件 配置作业监控告警(异常事件),并实时接收触发和恢复的告警通知。

处理建议

如果用户使用的是 Flink 1.13 版本,可以使用 Flink UI 内置的 火焰图功能 分析 CPU 调用热点,即占用 CPU 时间片较多的方法(首先需要在作业的 高级参数 选项中,加入 rest.flamegraph.enabled: true 参数,并重新发布作业版本,才可使用火焰图绘制功能),如下图:

如果未开启火焰图功能或者使用1.11等旧版本的 Flink,则可以多次查看 Flink UI 中 TaskManager 各线程的 Thread Dump 信息,寻找繁忙算子的调用频率较高的方法,如下图:

如果以上方法均未能解决问题,可以通过 工单 等方式联系我们的技术人员以协助定位。

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈