データレイクコンピューティング DLC は、ネイティブ Spark に基づくバッチ処理、ストリームコンピューティング機能を提供し、ユーザーがデータタスクを通じて複雑なデータ処理やETLなどの操作を実行できるようにサポートします。
現在、データジョブの Spark 関連バージョンのサポートは以下の通りです:
Scala 2.12.* バージョン。
Spark 3.2.1 バージョン。
使用準備
データジョブの使用を開始する前に、データのセキュリティを確保するため、まずデータアクセスポリシーを作成する必要があります。データアクセスポリシーは、データジョブがアクセスできるCOSパスとファイルを指定します。詳細な設定説明については、データアクセスポリシーの設定をご参照ください。
データジョブが他のデータソースにアクセスする必要がある場合、データエンジンのネットワーク設定を行った後、対応するデータエンジンを選択することでデータのアクセスと処理が可能です。ネットワーク設定方法と詳細説明については、エンジンネットワーク設定をご覧ください。 課金モード
データジョブは使用するデータエンジンに基づいて課金され、現在は従量課金と年額/月額サブスクリプションの2つのモードがサポートされています。詳細はデータエンジンの説明をご参照ください。 従量課金:データジョブの量が少ない、または周期的に使用するシナリオに適しています。ジョブ作成後に起動して使用し、ジョブの実行が完了すると自動的に停止され、それ以降は費用が発生しません。
年額課金:データジョブの量が多く、かつ安定して使用するシナリオに適しています。月額料金を支払ってリソースを予約し、データエンジンの起動を待つ必要がありません。
注意
データジョブとSQLジョブの計算エンジンタイプの違いにより、Sparkジョブタイプのデータエンジンを個別に購入する必要があり、SparkSQLタイプのデータエンジンを使用してデータジョブを実行することはできません。
ジョブ管理
データジョブ管理メニューを通じて、データジョブの作成、起動、変更、削除を行うことができます。
1. データ湖計算コンソールのデータジョブにログインし、データジョブ管理ページに進みます。 2. データジョブ作成ボタンをクリックすると、新しいデータジョブを作成できます。詳細な手順については、データジョブの作成を参照してください。 3. リスト内でデータジョブの現在のタスク状態を確認でき、データジョブの管理もサポートしています。詳細な手順については、データジョブの管理を参照してください。