tencent cloud

Video on Demand

릴리스 노트 및 공지 사항
릴리스 노트
제품 소개
제품 개요
Product Features
제품 기능
제품 장점
시나리오
솔루션
구매 가이드
과금 개요
과금 방식
구매 가이드
청구서 조회
연장 안내
연체 안내
환불 안내
시작하기
콘솔 가이드
콘솔 소개
서비스 개요
애플리케이션 관리
미디어 관리
리소스 패키지 관리
License Management
사례 튜토리얼
미디어 업로드
VOD 미디어 파일을 스마트 콜드 스토리지하는 방법
비디오 처리
배포 및 재생
이벤트 알림 수신 방법
원본 서버 마이그레이션 방법
라이브 방송 녹화
사용자 지정 Origin-pull을 수행하는 방법
라이브 방송 하이라이트 클리핑을 VOD에 통합하기 위한 가이드
EdgeOne을 사용하여 VOD 콘텐츠 배포하는 방법
개발 가이드
미디어 업로드
미디어 처리
비디오 AI
이벤트 알림
비디오 재생
미디어 파일 다운로드
서브 애플리케이션 시스템
오류 코드
플레이어 SDK 문서
Overview
Basic Concepts
Features
Free Demo
Free Trial License
Purchase Guide
SDK Download
Licenses
Player Guide
Integration (UI Included)
Integration (No UI)
Advanced Features
API Documentation
Player Adapter
Player SDK Policy
FAQs
모바일 재생
요금
비디오 업로드
비디오 배포
비디오 재생
Web 재생
전체 화면 재생
데이터 통계
액세스 관리
미디어 자산 콜드 스토리지
Agreements
Service Level Agreement
VOD 정책
개인 정보 보호 정책
데이터 처리 및 보안 계약
문의하기
용어집

비디오 콘텐츠 인식

PDF
포커스 모드
폰트 크기
마지막 업데이트 시간: 2023-10-26 17:39:30
Tencent Cloud Video on Demand(VOD)는 2022년 8월 1일부터 오디오/비디오 콘텐츠 인식 기능에 대한 과금을 시작합니다. 자세한 내용은 오디오/비디오 콘텐츠 인식 기능 유료 전환 공지를 참고하십시오.
오디오/비디오 콘텐츠 인식은 AI를 이용하여 오프라인에서 오디오/비디오 콘텐츠를 지능적으로 식별하는 작업입니다. 오디오/비디오 콘텐츠 인식을 통해 비디오 화면의 얼굴, 텍스트, 오픈 크레딧과 엔딩 크레딧, 음성 텍스트를 식별할 수 있습니다. 오디오/비디오 콘텐츠 인식 결과에 따라 정확하고 효과적으로 비디오를 관리할 수 있습니다. 오디오/비디오 콘텐츠 인식에는 다음과 같은 기능이 포함됩니다.
기능
설명
사용 사례
얼굴 인식
화면에 등장하는 얼굴 인식
유명인이 화면에 등장하는 위치를 마크합니다.
화면에서 특정 인물을 확인합니다.
전체 음성 인식
음성 중 모든 단어 인식
음성 콘텐츠에 대한 자막을 생성합니다.
비디오의 음성 콘텐츠에 대한 데이터 분석을 수행합니다.
전체 텍스트 인식
화면에 등장하는 모든 텍스트 인식
화면 중의 텍스트에 대한 데이터 분석을 수행합니다.
음성 키워드 인식
음성에서 키워드 인식
음성에서 민감한 단어를 확인합니다.
음성에서 특정 키워드를 검색합니다.
텍스트 키워드 인식
화면에서 키워드 인식
화면에서 민감한 단어를 확인합니다.
화면에서 특정 키워드를 검색합니다.
오프닝 및 클로징 크레딧 인식
비디오의 오프닝 및 클로징 크레딧 인식
진행률 표시줄에서 오프닝/클로징 크레딧 및 본편 위치를 표시합니다.
비디오의 오프닝 및 클로징 크레딧을 일괄적으로 제거합니다.
부분 콘텐츠 인식 기능은 소재 라이브러리에 따라 다릅니다. 라이브러리에는 공용 라이브러리와 사용자 지정 라이브러리의 두 가지 유형이 있습니다.
공용 라이브러리: VOD의 사전 설정 소재 라이브러리입니다.
사용자 지정 라이브러리: 사용자가 생성하고 관리하는 소재 라이브러리입니다.
인식 유형
공용 라이브러리
사용자 지정 라이브러리
얼굴 인식
지원됩니다. 라이브러리에는 스포츠와 엔터테인먼트 산업의 유명인들도 포함됩니다.
지원됩니다. 서버 API 호출을 통해 사용자 정의 얼굴 라이브러리를 관리합니다.
음성 단어 인식
현재는 지원되지 않습니다.
지원됩니다. 서버 API 호출을 통해 키워드 라이브러리를 관리합니다.
텍스트 단어 인식
현재는 지원되지 않습니다.
지원됩니다. 서버 API 호출을 통해 키워드 라이브러리를 관리합니다.

오디오/비디오 콘텐츠 인식 템플릿

오디오/비디오 콘텐츠 인식은 아래에 설명된 대로 매개변수를 통해 세밀한 제어가 필요한 여러 인식 기능을 통합합니다.
활성화할 인식 유형: 활성화할 콘텐츠 인식 기능입니다.
사용할 라이브러리: 얼굴 인식을 위해 공용 라이브러리 또는 사용자 지정 라이브러리 사용 여부입니다.
필터 점수: 얼굴 인식 결과를 반환하기 위한 신뢰도 점수 임계값입니다.
필터 태그: 반환된 결과를 필터링하는 태그입니다.
VOD는 공통 매개변수 조합에 대해 사전 설정된 오디오/비디오 콘텐츠 인식 템플릿을 제공합니다. 또한 서버 API를 사용하여 사용자 지정 템플릿을 생성하고 관리할 수도 있습니다.

작업 시작

오디오/비디오 콘텐츠 인식 작업을 시작하는 방법에는 ‘서버 API를 통한 직접 시작’, ‘콘솔을 통한 직접 시작’ 및 ‘업로드 시 실행할 작업 지정’의 세 가지 방법이 있습니다. 자세한 내용은 비디오 처리의 작업 시작을 참고하십시오.
다음은 오디오/비디오 콘텐츠 인식 작업을 시작하는 다양한 방식에 관한 설명입니다.
서버 API ProcessMedia를 호출하여 작업 시작: 요청의 AiRecognitionTask 매개변수에 오디오/비디오 콘텐츠 인식 템플릿의 템플릿 ID를 지정합니다.
콘솔을 통해 비디오에 대한 작업 시작: 서버 API를 호출하여 태스크 플로우를 생성하고, 태스크 플로우에 비디오 콘텐츠 인식 작업(MediaProcessTask.AiRecognitionTask에서 지정)을 구성한 뒤, 콘솔에서 태스크 플로우를 사용하여 비디오 처리 시작을 진행합니다.
서버 업로드 시 작업 지정: 서버 API를 호출하여 태스크 플로우를 생성하고 태스크 플로우에 오디오/비디오 콘텐츠 인식(MediaProcessTask.AiRecognitionTask에서 지정) 작업을 구성한 뒤, 업로드 신청procedure를 이 태스크 플로우로 지정합니다.
클라이언트 업로드 시 작업 지정: 서버 API를 호출하여 태스크 플로우를 생성하고 태스크 플로우에 오디오/비디오 콘텐츠 인식(MediaProcessTask.AiRecognitionTask에서 지정) 작업을 구성한 뒤, 클라이언트 업로드 서명procedure를 이 태스크 플로우로 지정합니다.
콘솔 업로드: 서버 API를 호출하여 태스크 플로우를 생성하고, 태스크 플로우에 오디오/비디오 콘텐츠 인식 작업(MediaProcessTask.AiRecognitionTask에서 지정)을 구성합니다. 콘솔을 통해 비디오를 업로드한 뒤 업로드 중 비디오 처리를 선택하고 비디오 업로드 후 이 태스크 플로우를 실행하도록 지정합니다.

결과 가져오기

오디오/비디오 콘텐츠 인식을 시작한 후 비동기화 방식으로 결과 알림을 비동기적으로 기다리거나 작업 쿼리를 동기적으로 수행하여 작업 실행 결과를 얻을 수 있습니다. 다음은 비디오 콘텐츠 스마트 인식 작업이 시작된 후 일반 콜백 방식으로 결과 알림을 받는 예시입니다(null 값이 있는 필드는 생략).
{
"EventType":"ProcedureStateChanged",
"ProcedureStateChangeEvent":{
"TaskId":"1400155958-Procedure-2e1af2456351812be963e309cc133403t0",
"Status":"FINISH",
"FileId":"5285890784363430543",
"FileName":"컬렉션",
"FileUrl":"http://1400155958.vod2.myqcloud.com/xxx/xxx/aHjWUx5Xo1EA.mp4",
"MetaData":{
"AudioDuration":243,
"AudioStreamSet":[
{
"Bitrate":125599,
"Codec":"aac",
"SamplingRate":48000
}
],
"Bitrate":1459299,
"Container":"mov,mp4,m4a,3gp,3g2,mj2",
"Duration":243,
"Height":1080,
"Rotate":0,
"Size":44583593,
"VideoDuration":243,
"VideoStreamSet":[
{
"Bitrate":1333700,
"Codec":"h264",
"Fps":29,
"Height":1080,
"Width":1920
}
],
"Width":1920
},
"AiRecognitionResultSet":[
{
"Type":"FaceRecognition",
"FaceRecognitionTask":{
"Status":"SUCCESS",
"ErrCode":0,
"Message":"",
"Input":{
"Definition":10
},
"Output":{
"ResultSet":[
{
"Id":183213,
"Type":"Default",
"Name":"홍길동",
"SegmentSet":[
{
"StartTimeOffset":10,
"EndTimeOffset":12,
"Confidence":97,
"AreaCoordSet":[
830,
783,
1030,
599
]
},
{
"StartTimeOffset":12,
"EndTimeOffset":14,
"Confidence":97,
"AreaCoordSet":[
844,
791,
1040,
614
]
}
]
},
{
"Id":236099,
"Type":"Default",
"Name":"심청이",
"SegmentSet":[
{
"StartTimeOffset":120,
"EndTimeOffset":122,
"Confidence":96,
"AreaCoordSet":[
579,
903,
812,
730
]
}
]
}
]
}
}
}
],
"TasksPriority":0,
"TasksNotifyMode":""
}
}

콜백 결과 중 ProcedureStateChangeEvent.AiRecognitionResultSetTypeFaceRecognition인 인식 결과가 있으며, 얼굴 인식을 나타냅니다.
TypeFaceRecognition인 결과는 Output.ResultSet에 ‘홍길동’과 ‘심청이’라는 두 명의 인물 인식 결과가 포함되어 있음을 의미합니다. SegmentSet는 비디오에 얼굴이 나오는 시간대(StartTimeOffsetEndTimeOffset으로 결정)와 화면의 좌표(AreaCoordSet로 결정)가 인식되었음을 나타냅니다.

도움말 및 지원

문제 해결에 도움이 되었나요?

피드백