プロダクト概要
製品の強み
適用シーン
フィールド名称 | 説明 |
タスクID | タスクの一意の識別子。 |
タスク名 | プレフィックス_yyyymmddhhmmss_8桁uuid、yyyymmddhhmmssはタスク実行時間です。 プレフィックスルール 1. コンソールで送信されたジョブタスクのプレフィックスはジョブ名です。例えば、ユーザーが作成したジョブがcustomer_segmentation_jobで、2024.11.26 21:25:10に実行された場合、タスクIDはcustomer_segmentation_job_20241126212510_f2a65wk1となります。現在のデータ形式の制限により、ジョブ名は100文字以下です。 2. データ探索ページで送信されたSQLタイプのプレフィックスはsql_queryです。例:sql_query_20241126212510_f2a65wk1。 3. データ最適化タスクは、最適化タスクの異なるサブタイプのプレフィックスに基づいて、以下のようになります: 3.1 オプティマイザのプレフィックスはoptimizerのみです。 3.2 インスタンスの最適化SQLタイプはoptimizer_sqlです。 3.3 インスタンスのバッチ最適化タイプはoptimizer_batchです。 3.4 構成データ最適化戦略時に作成された構成タスクはoptimizer_configです。 4. データインポートタスク、プレフィックスはimport、例:import_20241126212510_f2a65wk1。 5. データエクスポートタスク、プレフィックスはexport、例:export_20241126212510_f2a65wk1。 6. Wedata 提出、接頭辞は wd、例:wd_20241126212510_f2a65wk1。 7. その他のインターフェース提出、接頭辞はcustomized、例:customized_20241126212510_f2a65wk1。 8. メタデータ管理ページでメタデータに対して操作を行う際に作成されるタスク、接頭辞はmetadata、例:metadata_20241126212510_f2a65wk1。 |
タスクタイプ | 起動中 実行中 待機中 成功 失敗 キャンセル済み 期限切れ タスクがタイムアウトしました |
タスク内容 | タスクの詳細内容。作業タイプのタスクは作業詳細のハイパーリンク、SQLタイプのタスクは完全なSQL文です。 |
タスクタイプ | 作業タイプ、SQLタイプに分かれます。 |
タスクソース | このタスクの発生ソース。データ探索タスク、データ作業タスク、データ最適化タスク、インポートタスク、エクスポートタスク、メタデータ管理、Wedataタスク、インターフェース提出タスクをサポートします。 |
サブチャネル | ユーザーがインターフェースからタスクを提出する際、サブチャネルをカスタマイズできます。 |
計算リソース | このタスクを実行するために使用される計算エンジン/リソースグループ。 |
* 累計 CPU * 時間(消費CU*時) | Spark Executorの各コアのCPU実行時間の合計を統計的に計算し、単位は時間(クラスタのマシン起動時間と同等ではない。マシン起動後、必ずしもタスク計算に参加するわけではないため。最終的なクラスタのCU消費課金は請求書を基準とする)。 Spark シナリオでは、Spark Task の実行時間の直列加算 (秒) /3600 (単位: 時間) にほぼ等しい (この指標はタスク完了後にのみ統計可能です) |
実行総所要時間 | タスクの開始から終了までの時間で、リソース不足による待機時間が含まれる場合があります。 1. Spark SQLタスクの場合、プラットフォームのスケジューリング時間 + エンジン内のキュー待ち時間 + エンジン内の実行時間となります。 2. Sparkタスクの場合、プラットフォームのスケジューリング時間 + エンジン起動時間 + エンジン内のキュー待ち時間 + エンジン内の実行時間となります。 |
* エンジン実行時間 | そのタスクにインサイト結果がある場合、エンジン内の実行時間となり、実際の計算に要した時間を反映します。つまり、Sparkタスクの最初のTaskの実行開始からタスク終了までの時間となります。 具体的:タスクの各Spark Stageの最初のTaskから最後のTaskの完了までの時間の合計を統計します。タスク開始時のキュー待ち時間(つまり、タスクの提出からSpark Taskの実行開始までのスケジューリングなどの時間)は含まれず、また、タスク実行中に複数のSpark Stage間でexecutorリソースが不足しているためにTaskの実行待ちで消費された時間も含まれません。(この指標はタスク完了後に統計可能です) |
* データスキャン量 | このタスクがストレージから読み取った物理データ量は、SparkシナリオではSpark UIの「Stage Input Size」の合計にほぼ等しくなります。 |
* データスキャン件数 | このタスクがストレージから読み取った物理データ件数は、SparkシナリオではSpark UIの「Stage Input Records」の合計にほぼ等しくなります。 |
作成者 | ジョブタイプのタスクの場合、そのジョブの作成者となります。 |
実行者 | そのタスクを実行するユーザー。 |
提出時間 | ユーザーがタスクを提出した時間。 |
* エンジン実行時間 | タスクが初めてCPUを占有して実行を開始する時間、Sparkエンジン内で最初のタスクが実行を開始する時間。 (この指標は、タスクが完了してから統計可能です) |
* 出力ファイル数 | この指標の収集には、Sparkエンジンカーネルを2024.11.16以降のバージョンにアップグレードする必要があります。 タスクがINSERTなどのステートメントで書き込んだファイルの総数。 (この指標は、タスクが完了してから統計可能です) |
* 出力小ファイル数 | この指標の収集には、Sparkエンジンカーネルを2024.11.16以降のバージョンにアップグレードする必要があります。 小ファイルの定義:出力される単一ファイルのサイズが4MB未満の場合、小ファイルと定義されます(パラメータspark.dlc.monitorFileSizeThresholdで制御、デフォルトは4MB、エンジングローバルまたはタスクレベルで設定可能)。 本指標の定義:タスクがINSERTなどのステートメントで書き込んだ小ファイルの総数。 (この指標はタスク完了後にのみ統計可能です) |
*出力総行数 | このタスクがデータを処理した後に出力されるレコード数は、SparkシナリオではSpark UIの「Stage Output Records」の合計にほぼ等しくなります。 |
*出力総サイズ | このタスクがデータを処理した後に出力されるレコードサイズは、SparkシナリオではSpark UIの「Stage Output Size」の合計にほぼ等しくなります。 |
*データシャッフル行数 | SparkシナリオではSpark UIの「Stage Shuffle Read Records」の合計にほぼ等しくなります。 (この指標はタスク完了後にのみ統計可能です) |
*データシャッフルサイズ | SparkシナリオではSpark UIの「Stage Shuffle Read Size」の合計にほぼ等しくなります。 (この指標はタスク完了後にのみ統計可能です) |
*健康状態 | (この指標はタスク完了後にのみ統計可能です) |
フィードバック