字段名称 | 描述 |
任务ID | 任务的唯一标识。 |
任务名称 | 前缀_yyyymmddhhmmss_八位uuid,其中 yyyymmddhhmmss 为任务执行时间。 前缀规则: 1. 控制台提交的作业任务,前缀为作业名,如用户创建作业为 customer_segmentation_job, 于2024.11.26 21:25:10执行,则任务id为 customer_segmentation_job_20241126212510_f2a65wk1。根据目前数据格式限制,作业名称<=100字符。 2. 数据探索页面提交的 SQL 类型,前缀为 sql_query,样例:sql_query_20241126212510_f2a65wk1。 3. 数据优化任务,根据优化任务不同的子类型的前缀,其中: 3.1 优化器前缀仅 optimizer。 3.2 优化实例 SQL 类型为 optimizer_sql。 3.3 优化实例批类型为 optimizer_batch。 3.4 配置数据优化策略时创建的配置任务 optimizer_config。 4. 导入数据任务,前缀为 import,样例:import_20241126212510_f2a65wk1。 5. 导出数据任务,前缀为 export,样例:export_20241126212510_f2a65wk1。 6. Wedata 提交,前缀为 wd,样例:wd_20241126212510_f2a65wk1。 7. 其他接口提交,前缀为customized,样例:customized_20241126212510_f2a65wk1。 8. 元数据管理页面对元数据进行操作所创建的任务,前缀为 metadata,样例:metadata_20241126212510_f2a65wk1。 |
任务类型 | 启动中 执行中 排队中 成功 失败 已取消 已过期 任务超时 |
任务内容 | 任务的详细内容。作业类型任务为作业详情超链接;SQL 类型任务为完整 SQL 语句。 |
任务类型 | 分为作业类型、SQL 类型。 |
任务来源 | 该任务的产生来源。支持数据探索任务、数据作业任务、数据优化任务、导入任务、导出任务、元数据管理、Wedata 任务、接口提交任务。 |
子渠道 | 用户从接口提交任务时,可自定义子渠道。 |
计算资源 | 运行该任务所用的计算引擎/资源组。 |
* 累计 CPU * 时(消耗CU*时) | 统计参与计算所用 Spark Executor 每个 core 的 CPU 执行时长总和,单位小时(不等价集群拉起机器的时长,因机器拉起后不一定会参与到任务计算,最终集群消耗 CU 计费以账单为准)。 在 Spark 场景下约等于 Spark Task 执行时长串行加和 (秒) /3600 (单位小时) (该指标需等任务完成后才可统计) |
* 计算耗时 | 1. 若该任务有洞察结果,则为引擎内执行耗时,反映真正用于计算所需的耗时,即从 Spark 任务第一个 Task 开始执行到任务结束之间的耗时。 具体的:会统计任务的每个 Spark Stage 第一个 Task 到最后一个 Task 完成时长之和,不包含任务开始的排队耗时(即剔除从任务提交到 Spark Task 开始执行之间的调度等其他耗时),也不包含任务执行过程中多个 Spark Stage 之间因 executor 资源不足而等待执行 Task 所消耗的时间。 (该指标需等任务完成后才可统计) 2. 若该任务不支持洞察或暂无洞察结果: 2.1 如果是 Spark SQL 任务,为平台调度时间 + 引擎内的排队耗时 + 引擎内执行耗时。 2.2 如果是 Spark 作业任务,为平台调度时间 + 引擎启动耗时+引擎内的排队耗时 + 引擎内执行耗时。 |
* 数据扫描量 | 该任务从存储读取的物理数据量,在 Spark 场景下约等于 Spark UI 中 Stage Input Size 之和。 |
* 数据扫描条数 | 该任务从存储读取的物理数据条数,在 Spark 场景下约等于 Spark UI 中 Stage Input Records 之和。 |
创建人 | 若为作业类型任务,为该作业的创建人。 |
执行人 | 运行该任务的用户。 |
提交时间 | 用户提交任务的时间。 |
*引擎执行时间 | 任务第一次抢占 CPU 开始执行的时间,Spark 引擎内开始执行的第一个 task 时间。 (该指标需等任务完成后才可统计) |
*输出文件个数 | 该指标的收集需要 Spark 引擎内核升级至 2024.11.16之后的版本。 任务通过 Insert 等语句写出的文件个数总和 (该指标需等任务完成后才可统计) |
*输出小文件个数 | 该指标的收集需要 Spark 引擎内核升级至 2024.11.16 之后的版本。 小文件定义:输出的单个文件大小 < 4MB 则定义为小文件(参数 spark.dlc.monitorFileSizeThreshold 控制,默认 4MB,引擎全局或任务级别均可支持配置) 本指标定义:任务通过 insert 等语句写出的小文件个数总和。 (该指标需等任务完成后才可统计) |
*输出总行数 | 该任务处理完数据后输出的记录数量,在 Spark 场景下约等于 Spark UI中Stage Output Records 之和。 |
*输出总大小 | 该任务处理完数据后输出的记录大小,在 Spark 场景下约等于 Spark UI中Stage Ouput Size 之和。 |
*数据shuffle行数 | 在Spark场景下约等于 Spark UI 中 Stage Shuffle Read Records 之和 (该指标需等任务完成后才可统计) |
*数据shuffle大小 | 在Spark场景下约等于 Spark UI 中 Stage Shuffle Read Size 之和 (该指标需等任务完成后才可统计) |
*健康状态 | (该指标需等任务完成后才可统计) |
文档反馈