tencent cloud

Cloud Object Storage

동향 및 공지
릴리스 노트
제품 공지
제품 소개
제품 개요
기능 개요
적용 시나리오
제품 장점
기본 개념
리전 및 액세스 도메인
규격 및 제한
제품 요금
과금 개요
과금 방식
과금 항목
프리 티어
과금 예시
청구서 보기 및 다운로드
연체 안내
FAQ
빠른 시작
콘솔 시작하기
COSBrowser 시작하기
사용자 가이드
요청 생성
버킷
객체
데이터 관리
일괄 프로세스
글로벌 가속
모니터링 및 알람
운영 센터
데이터 처리
스마트 툴 박스 사용 가이드
데이터 워크플로
애플리케이션 통합
툴 가이드
툴 개요
환경 설치 및 설정
COSBrowser 툴
COSCLI 툴
COSCMD 툴
COS Migration 툴
FTP Server 툴
Hadoop 툴
COSDistCp 툴
HDFS TO COS 툴
온라인 도구 (Onrain Dogu)
자가 진단 도구
실습 튜토리얼
개요
액세스 제어 및 권한 관리
성능 최적화
AWS S3 SDK를 사용하여 COS에 액세스하기
데이터 재해 복구 백업
도메인 관리 사례
이미지 처리 사례
COS 오디오/비디오 플레이어 사례
데이터 다이렉트 업로드
데이터 보안
데이터 검증
빅 데이터 사례
COS 비용 최적화 솔루션
3rd party 애플리케이션에서 COS 사용
마이그레이션 가이드
로컬 데이터 COS로 마이그레이션
타사 클라우드 스토리지 데이터를 COS로 마이그레이션
URL이 소스 주소인 데이터를 COS로 마이그레이션
COS 간 데이터 마이그레이션
Hadoop 파일 시스템과 COS 간 데이터 마이그레이션
데이터 레이크 스토리지
클라우드 네이티브 데이터 레이크
메타데이터 가속
데이터 레이크 가속기 GooseFS
데이터 처리
데이터 처리 개요
이미지 처리
미디어 처리
콘텐츠 조정
파일 처리
문서 미리보기
장애 처리
RequestId 가져오기
공용 네트워크로 COS에 파일 업로드 시 속도가 느린 문제
COS 액세스 시 403 에러 코드 반환
리소스 액세스 오류
POST Object 자주 발생하는 오류
보안 및 컴플라이언스
데이터 재해 복구
데이터 보안
액세스 관리
자주 묻는 질문
인기 질문
일반 문제
과금
도메인 규정 준수 문제
버킷 설정 문제
도메인 및 CDN 문제
파일 작업 문제
로그 모니터링 문제
권한 관리
데이터 처리 문제
데이터 보안 문제
사전 서명 URL 관련 문제
SDK FAQ
툴 관련 문제
API 관련 문제
Agreements
Service Level Agreement
개인 정보 보호 정책
데이터 처리 및 보안 계약
연락처
용어집

HDFS TO COS 툴

PDF
포커스 모드
폰트 크기
마지막 업데이트 시간: 2024-06-24 16:21:00

기능 설명

HDFS TO COS 툴은 HDFS의 데이터를 Tencent Cloud COS에 복사하는 데 사용됩니다.

사용 환경

시스템 환경

Linux 또는 Windows 시스템

소프트웨어 종속

JDK 1.7 또는 1.8

설치 및 설정

구체적인 환경 설치 및 설정은 Java 설치 및 설정을 참조하십시오.

설정 방법

1. Hadoop-2.7.2 이상의 버전을 설치합니다. 구체적인 설치 절차는 Hadoop 설치 및 테스트를 참조하십시오.
2. GitHub에서 HDFS TO COS 툴을 다운로드한 후 압축을 해제하십시오.
3. 동기화할 HDFS 클러스터의 core-site.xml을 conf 폴더에 복사합니다. core-site.xml에는 NameNode의 설정 정보가 포함되어 있습니다.
4. 구성 파일 cos_info.conf의 버킷(Bucket), 리전(Region) 및 API 키 정보를 편집합니다. 버킷의 이름은 사용자 정의 문자열과 시스템에서 생성한 APPID 숫자열이 하이픈으로 연결되어 구성됩니다(예시: examplebucket-1250000000).
5. 명령 라인 매개변수에서 구성 파일 위치를 지정합니다. 기본 위치는 conf/cos_info.conf입니다.
주의:
명령 라인 매개변수의 매개변수와 구성 파일이 겹치는 경우, 명령 라인을 기준으로 합니다.

사용 방법

설명:
다음은 Linux를 예시로 한 사용 방법입니다.

도움말 조회

./hdfs_to_cos_cmd -h

파일 복사

HDFS에서 COS로 복사합니다. COS에 동일한 이름의 파일이 존재하는 경우 원본 문서를 덮어씁니다.
./hdfs_to_cos_cmd --hdfs_path=/tmp/hive --cos_path=/hdfs/20170224/
HDFS에서 COS로 복사합니다. COS에 이름과 길이가 동일한 파일이 존재하는 경우 업로드를 무시합니다(1회 복사 후 다시 복사 시 적용).
./hdfs_to_cos_cmd --hdfs_path=/tmp/hive --cos_path=/hdfs/20170224/ -skip_if_len_match
여기에서는 길이만 판단합니다. Hadoop 상의 파일 개요를 계산할 경우 부하가 비교적 크기 때문입니다.
HDFS에서 COS로 복사합니다. HDFS에 Har 디렉터리(Hadoop Archive 보관 파일)가 존재하는 경우 --decompress_har 매개변수를 지정하여 자동으로 har 파일을 압축 해제할 수 있습니다.
./hdfs_to_cos_cmd --decompress_har --hdfs_path=/tmp/hive --cos_path=/hdfs/20170224/
--decompress_har 매개변수를 지정하지 않는 경우, 기본적으로 일반 HDFS 디렉터리에 따라 복사를 진행합니다. 즉, .har 디렉터리에 있는 index 및 masterindex 등의 파일을 그대로 복사합니다.

디렉터리 정보

conf : core-site.xml과 cos_info.conf를 저장하는 데 사용되는 구성 파일
log: 로그 디렉터리
src: Java 소스 프로그램
dep: 컴파일 생성된 실행 가능한 JAR 패키지

문제 및 도움말

설정 정보 관련

버킷(Bucket), 리전(Region) 및 API 키 정보를 포함한 설정 정보가 정확하게 입력되었는지 확인하십시오. 버킷의 이름은 사용자 정의 문자열과 시스템에서 생성한 APPID 숫자열이 하이픈으로 연결되어 구성됩니다(예시: examplebucket-1250000000). 또한 기기의 시간과 베이징 시간을 동일하게(1분 정도의 차이는 정상) 유지하고, 차이가 큰 경우 기기의 시간을 다시 설정하십시오.

DataNode 관련

DataNode에 복사 프로그램이 있는 기기도 연결할 수 있도록 보장하십시오. NameNode는 공인 IP로 연결할 수 있지만, 획득하는 block이 위치한 DataNode 기기는 내부 IP이므로 직접 연결할 수 없습니다. 따라서 동기화 프로그램을 Hadoop의 노드에서 실행해 NameNode와 DataNode에 모두 액세스할 수 있도록 보장하는 것을 권장합니다.

권한 관련

Hadoop 명령어를 사용해 파일을 다운로드하고 정상인지 확인한 후에, 동기화 툴을 사용해 Hadoop의 데이터 지원을 동기화하십시오.

파일 덮어쓰기 관련

COS에 존재하는 파일은 기본적으로 재전송 시 덮어쓰게 됩니다. 사용자가 명확하게 -skip_if_len_match를 지정한 경우 외에, 파일 길이가 동일한 경우 업로드를 건너뜁니다.

cos path 관련

cos path는 기본적으로 디렉터리로 설정되어 있으며, 최종적으로 HDFS에서 복사하는 파일은 모두 해당 디렉터리에 저장됩니다.

Tencent Cloud EMR HDFS로부터의 데이터 복사 관련

Tencent Cloud EMR HDFS에서 COS로 데이터를 복사할 때 고성능 Distcp 툴 사용을 권장합니다. Hadoop 파일 시스템과 COS 간 데이터 마이그레이션을 참조하십시오.

도움말 및 지원

문제 해결에 도움이 되었나요?

피드백