最新情報とお知らせ
- 製品アップデート情報
- 製品のお知らせ
製品概要
製品の課金
- 課金概要
- 課金方式
- 課金項目
- 無料利用枠
- 記帳例
- 請求書の確認とダウンロード
- お支払い遅れについて
- よくある質問
クイックスタート
- コンソールクイックスタート
- COSBrowserクイックスタート
ユーザーガイド
- リクエストの作成
- バケット
- オブジェクト
- データ管理
- バッチ処理
- グローバルアクセラレーション
- 監視とアラーム
- 運用管理センター
- データ処理
- インテリジェントツールボックス使用ガイド
- データワークフロー
- アプリ統合
ツールガイド
- ツール概要
- 環境のインストールと設定
- COSBrowserツール
- COSCLIツール
- COSCMDツール
- COS Migrationツール
- FTP Serverツール
- Hadoopツール
- COSDistCpツール
- HDFS TO COSツール
- GooseFS-Lite・ツール
- オンラインツール (Onrain Tsūru)
- セルフ診断ツール
実践チュートリアル
- 概要
- アクセス制御と権限管理
- パフォーマンスの最適化
- AWS S3 SDKを使用したCOSアクセス
- データディザスタリカバリバックアップ
- ドメイン名管理の実践
- 画像処理の実践
- COSオーディオビデオプレーヤーの実践
- データセキュリティ
- データ検証
- COSコスト最適化ソリューション
- サードパーティアプリケーションでのCOSの使用
移行ガイド
- サードパーティクラウドストレージのデータをCOSへ移行
データレークストレージ
- クラウドネイティブデータレイク
- メタデータアクセラレーション
- データアクセラレーター GooseFS
データ処理
- データ処理概要
- 画像処理
- メディア処理
- コンテンツ審査
- ファイル処理
- ドキュメントプレビュー
トラブルシューティング
セキュリティとコンプライアンス
- データ災害復帰
- データセキュリティ
- クラウドアクセスマネジメント
よくある質問
- よくあるご質問
- 一般的な問題
- 従量課金に関するご質問
- ドメインコンプライアンスに関するご質問
- バケット設定に関する質問
- ドメイン名とCDNに関するご質問
- ファイル操作に関するご質問
- 権限管理に関するご質問
- データ処理に関するご質問
- データセキュリティに関するご質問
- 署名付きURLに関するご質問
- SDKクラスに関するご質問
- ツール類に関するご質問
- APIクラスに関するご質問
Agreements
連絡先
用語集

HDFS TO COSツール

Download

フォーカスモード

フォントサイズ

最終更新日: 2024-06-26 10:27:35

機能説明
HDFS TO COSツールは、HDFSからTencent Cloud COSにデータをコピーするときに使います。|
使用環境
システム環境
LinuxまたはWindowsシステム。
ソフトウェア依存
JDK 1.7または1.8。 
インストールと設定
環境のインストールと設定の詳細については、Javaのインストールと設定をご参照ください。
設定方法
1. Hadoop-2.7.2以降のバージョンをインストールします。具体的なインストール手順については、Hadoopのインストールとテストをご参照ください。
2. GitHubからHDFS TO COSツールをダウンロードし、解凍してください。
3. 同期するHDFSクラスターのcore-site.xmlをconfフォルダにコピーします。このうちcore-site.xmlには、NameNodeの設定情報が含まれています。
4. 設定ファイルcos_info.confを編集して、バケット(Bucket)、リージョン(Region)およびAPIキー情報を保存します。このうちバケット名は、ユーザー定義の文字列と、システムが発行したAPPID文字列をハイフンで連結することで構成されます（例：examplebucket-1250000000）。
5. コマンドラインパラメータで設定ファイルの場所を指定します。デフォルトの場所はconf/cos_info.confです。
注意：
コマンドラインパラメータのパラメータが設定ファイルと重複している場合は、コマンドラインが優先されます。
利用方法
説明：
以下は、Linuxを例とした使用方法です。
ヘルプの確認
./hdfs_to_cos_cmd -h
ファイルのコピー
HDFSからCOSにコピーします。COSにすでに同名のファイルが存在する場合、元のファイルは上書きされます。
./hdfs_to_cos_cmd --hdfs_path=/tmp/hive --cos_path=/hdfs/20170224/
HDFSからCOSにコピーします。COSにすでに同名で同じ長さのファイルが存在する場合、アップロードは無視されます（1回目のコピー後、再度コピーする場合に適用されます）。
./hdfs_to_cos_cmd --hdfs_path=/tmp/hive --cos_path=/hdfs/20170224/ -skip_if_len_match
Hadoop上でファイルサマリーを計算するとオーバーヘッドが大きくなるため、ここでは長さのみを判断しています。
HDFSからCOSにコピーします。HDFSにHarディレクトリ（Hadoop Archiveアーカイブファイル）が存在する場合、--decompress_harパラメータを指定することでharファイルを自動的に解凍できます。
./hdfs_to_cos_cmd --decompress_har --hdfs_path=/tmp/hive --cos_path=/hdfs/20170224/
--decompress_harパラメータを指定しない場合、デフォルトで通常のHDFSディレクトリがコピーされます。すなわち、.harディレクトリ内のindexやmasterindexなどのファイルがそのままコピーされるということです。
ディレクトリ情報
conf : 設定ファイル。core-site.xmlとcos_info.confを保存するときに使います
log  : ログディレクトリ
src  : Javaソースプログラム
dep  : 発行した実行可能なJARパッケージをコンパイルします
質問とヘルプ
設定情報について
バケット(Bucket)、リージョン(Region)、APIキー情報など、入力された設定情報が正しいことを確認してください。このうちバケット名は、ユーザー定義の文字列と、システムが発行したAPPID文字列をハイフンが連結することで構成されます（例：examplebucket-1250000000）。また、マシンの時刻が北京の時刻と一致していることを確認してください（1分程度の差は正常です）。差が大きい場合は、マシンの時刻をリセットしてください。
DataNodeについて
DataNodeについては、コピープログラムが配置されているマシンも接続できることを確認してください。NameNodeには接続するパブリックネットワークIPがありますが、取得したblockが配置されているDateNodeマシンはプライベートネットワークIPであり、直接接続することはできません。したがって、NameNodeとDataNodeの両方にアクセスできるように、Hadoopのいずれかのノードで同期プログラムを実行することをお勧めします。
権限について
Hadoopコマンドを使用してファイルをダウンロードし、正常かどうかチェックしてから、同期ツールを使用してHadoopのデータサポートを同期してください。
ファイルの上書きについて
COSにすでに存在するファイルについては、デフォルトで再送信と上書きが行われます。ユーザーが明示的に-skip_if_len_matchを指定しない限り、ファイルの長さが同じである場合、アップロードはスキップされます。
cos pathについて
cos pathのデフォルトはディレクトリであり、最終的にHDFSからコピーされるファイルはこのディレクトリに保存されます。
Tencent Cloud EMR HDFSからのデータのコピーについて
Tencent Cloud EMR HDFSからCOSにデータをコピーする場合、高性能のDistcpツールを使用することをお勧めします。HadoopファイルシステムとCOS間のデータ移行をご参照ください。

ヘルプとサポート

この記事はお役に立ちましたか？

営業担当者にお問い合わせいただくかチケットを提出してサポートを求めることができます。

フィードバック

tencent cloud

Cloud Object Storage

HDFS TO COSツール

機能説明

使用環境

システム環境

ソフトウェア依存

インストールと設定

設定方法

利用方法

ヘルプの確認

ファイルのコピー

ディレクトリ情報

質問とヘルプ

設定情報について

DataNodeについて

権限について

ファイルの上書きについて

cos pathについて

Tencent Cloud EMR HDFSからのデータのコピーについて

ヘルプとサポート