データレイクコンピューティング DLC は、EMR Hive のデータソースを設定してクロスソース連合分析をサポートします。
説明:
標準エンジン-prestoはこの機能をサポートしていません。SuperSQLタイプのエンジンまたは標準エンジン-sparkを使用して分析できます。
ご利用前の準備
EMR Hive のアドレスを取得します。
データディレクトリ作成権限を持つアカウントを使用してください。詳細な権限については、DLC権限概要を参照してください。 EMR Hive データソースを作成します
1. データレイクコンピューティング DLC コンソールにログインし、サービス地域を選択します。
2. 左側のナビゲーションバーからデータ探索に入り、ライブラリテーブルバーの+ボタンをクリックして、新しいデータディレクトリを作成を選択します。
3. 接続タイプとしてEMR Hive(HDFS)を選択し、対応するEMRインスタンスを選択します。VPC情報はインスタンス選択後に自動的に入力されます。EMR HiveがサポートするEMRのバージョン:2.3.5、2.3.7、3.1.1、3.1.2。
注意:
EMR Hiveインスタンスの関連権限が必要な場合のみ選択できます。
4. 実行クラスターを選択します。現在、Prestoの専用データエンジンのみ選択可能です。対応するエンジンがない場合は、データエンジンページでデータエンジンを作成できます。購入プロセスについては、専用データエンジンの購入を参照してください。 注意:
選択したデータエンジンのネットワークセグメントは、EMRインスタンスのネットワークセグメントと同じにすることはできません。そうでないと、ネットワークの競合が発生し、データのクエリと分析ができなくなります。
5. 確認ボタンをクリックすると、データカタログの作成が完了します。
EMR Hive データをクエリします
データカタログの作成が完了したら、データ探索ページのデータカタログメニューでデータカタログを切り替えることができます。
これにより、SQL文を使用してこのデータカタログに対してクエリと分析を行うことができます。
データカタログ作成時にバインドしたデータエンジンを選択し、実行ボタンをクリックすると、クエリ結果を取得できます。
注意:
バインドされたデータエンジンのみがこのデータカタログをクエリでき、他のデータエンジンではクエリできません。