tencent cloud

流计算 Oceanus

动态与公告
产品动态
产品简介
产品概述
产品优势
应用场景
购买指南
计费概述
计费模式
退费说明
调整配置费用说明
快速入门
从零开始上手
创建独享集群
创建 SQL 作业
创建 JAR 作业
创建 ETL 作业
创建 Python 作业
操作指南
作业管理
作业开发
作业监控
作业日志
事件与诊断
元数据管理
快照管理
作业调优
依赖管理
集群管理
权限管理
SQL 开发指南
开发指南概述
术语和数据类型
DDL 数据定义语句
DML 数据操作语句
MySQL CDC 多 Source 复用
上下游开发指南
SET 控制语句
运算符和内置函数
标识符与保留字
Python 开发指南
ETL 开发指南
概述
ETL 作业术语表
上下游开发指南
常见问题
联系我们

查看作业监控信息

PDF
聚焦模式
字号
最后更新时间: 2023-11-07 18:07:31

监控功能简述

对于正在运行(或者曾经成功运行过)的流计算作业,用户有两种方式查看监控信息。

通过 Oceanus 控制台查看

登录 流计算 Oceanus 控制台,单击要查看的作业名称,并切换到监控页签,即可查看作业的各项关键指标,例如每秒输入输出的数据条数,算子处理耗时,CPU 及堆内存的使用率等。
BETA 功能:在北京、广州、上海等主要地区,用户在监控页还可以查看 JobManager、TaskManager 和 Task 级别的细粒度指标。

通过腾讯云可观测平台查看

在控制台的作业列表界面,单击右侧的腾讯云可观测平台,即可进入 腾讯云可观测平台控制台,查看更为详细的监控指标。在此还可以配置作业专属的监控告警策略。
说明
此外,流计算 Oceanus 还支持将 Flink 指标上报到 Prometheus,用户可以自行保存、分析和展示作业的各项指标。

Oceanus 控制台图文说明

在 Oceanus 控制台的作业管理页,可以查看作业的运行情况。 以上图的作业 high_cpu 任务为例,单击作业名称/ID进入详情页。 在监控页签的概览页,可以选择不同的时间维度:
时间维度可选择近1小时、近1天、近7天,还可以自定义时间区间。
采样粒度有1分钟粒度5分钟粒度两个选项,后者的曲线会更加平滑。

概览维度指标

在概览页面,我们可以查看作业运行时最关键的指标,例如每秒输入输出条数、算子计算总耗时、目的端 Watermark 与当前时间戳的延时、作业崩溃重启次数、TaskManager CPU、堆内存的平均使用率、老年代 GC 统计等,助力用户快速发现作业的常见异常。

Checkpoint 维度指标(BETA)

注意
Checkpoint 维度指标当前仅在广州、北京、上海的地域提供试用,其他地域敬请期待。
当作业开启 checkpoint 功能后,Flink 作业运行信息会以 Checkpoint(历史快照)的方式进行保存,供后续恢复使用。本监控页面会显示如下指标:
上次 Checkpoint 大小(字节):上个快照存储的大小
Checkpoint 耗时(毫秒):上个快照存储所耗时间
Checkpoint 失败总次数(次):保存快照累计失败次数

JobManager 维度指标(BETA)

注意
JobManager 维度指标当前仅在广州、北京、上海的地域提供试用,其他地域敬请期待。
一个 Flink 作业启动时只有一个 JobManager(简称 JM),所以这里展示的是该 JobManager 的各项指标:
JM CPU Load(%):对应 JobManager 的 Status.JVM.CPU.Load 代表 JVM 最近 CPU 利用率
JM Heap Memory(字节):JobManager 维度的堆内存使用情况
JM GC Count(次):JobManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Count,GC(垃圾回收)次数
JM GC Time(毫秒):JobManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Time,GC(垃圾回收)时间

TaskManager 维度指标(BETA)

注意
TaskManager 维度指标当前仅在广州、北京、上海的地域提供试用,其他地域敬请期待。
一个 Flink 作业启动时根据并发度设置,会有1个或多个 TaskManager。我们在列表中会展示出所有 TaskManager,用户可以选择观察哪个 TaskManager 的指标趋势。当前提供的 TaskManager 指标有:
CPU Load(%):对应 TaskManager 维度的 Status.JVM.CPU.Load 代表 JVM 最近 CPU 利用率
Heap Memory(字节):TaskManager 维度的堆内存使用情况
GC Count(次): TaskManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Count,GC(垃圾回收)次数
GC Time(毫秒):TaskManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Time,GC(垃圾回收)时间
Pod Memory(字节):TaskManager 所在的 TKE(容器服务)Pod 的内存使用量。该指标能反映出整个 Pod 内存的使用情况(包含 JVM 堆内存、堆外 Direct 内存、堆外原生内存、Pod 里其他辅助服务的内存使用量等)。如果占用过大,有被强制 OOM Killed 的风险
Pod CPU(%):TaskManager 所在的 TKE(容器服务)Pod 的 CPU 利用率。该指标能反映出整个 Pod 最近的 CPU 利用率(包含 JVM 自身的 CPU 用量、Pod 里其他辅助服务的 CPU 用量等)

Task 维度指标(BETA)

注意
Task 维度指标当前仅在广州、北京、上海的地域提供试用,其他地域敬请期待。
Flink 作业的运行图中会有一个或多个 Task,用户可以通过趋势图查看具体某个 Task 的各项指标:
OutPoolUsage:输出队列百分比,达到100%时任务达到反压状态,反压状态需要通过一些方法(除却负载均衡情况,需要调大算子并发度来解决反压)解决
OutputQueueLength:有多少个输出队列
InPoolUsage:输入队列百分比,达到100%时任务达到反压状态,反压状态需要通过一些方法(除却负载均衡情况,需要调大算子并发度来解决反压)解决
InputQueueLength:有多少个输入队列
CurrentInputWatermark:当前水位

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈