릴리스 노트 및 공지 사항

릴리스 노트

제품 소개

제품 개요

Product Features

제품 기능

제품 장점

시나리오

솔루션

구매 가이드

과금 개요

과금 방식

구매 가이드

청구서 조회

연장 안내

연체 안내

환불 안내

시작하기

콘솔 가이드

콘솔 소개

서비스 개요

애플리케이션 관리

미디어 관리

리소스 패키지 관리

License Management

사례 튜토리얼

미디어 업로드

VOD 미디어 파일을 스마트 콜드 스토리지하는 방법

비디오 처리

배포 및 재생

이벤트 알림 수신 방법

원본 서버 마이그레이션 방법

라이브 방송 녹화

사용자 지정 Origin-pull을 수행하는 방법

라이브 방송 하이라이트 클리핑을 VOD에 통합하기 위한 가이드

EdgeOne을 사용하여 VOD 콘텐츠 배포하는 방법

개발 가이드

미디어 업로드

미디어 처리

비디오 AI

이벤트 알림

비디오 재생

미디어 파일 다운로드

서브 애플리케이션 시스템

오류 코드

플레이어 SDK 문서

Overview

Basic Concepts

Features

Free Demo

Free Trial License

Purchase Guide

SDK Download

Licenses

Player Guide

Integration (UI Included)

Integration (No UI)

Advanced Features

API Documentation

Player Adapter

Player SDK Policy

FAQs

모바일 재생

요금

비디오 업로드

비디오 배포

비디오 재생

Web 재생

전체 화면 재생

데이터 통계

액세스 관리

미디어 자산 콜드 스토리지

Agreements

Service Level Agreement

VOD 정책

개인 정보 보호 정책

데이터 처리 및 보안 계약

문의하기

용어집

비디오 콘텐츠 인식

PDF

포커스 모드

폰트 크기

마지막 업데이트 시간: 2023-10-26 17:39:30

Tencent Cloud Video on Demand(VOD)는 2022년 8월 1일부터 오디오/비디오 콘텐츠 인식 기능에 대한 과금을 시작합니다. 자세한 내용은 오디오/비디오 콘텐츠 인식 기능 유료 전환 공지를 참고하십시오.
오디오/비디오 콘텐츠 인식은 AI를 이용하여 오프라인에서 오디오/비디오 콘텐츠를 지능적으로 식별하는 작업입니다. 오디오/비디오 콘텐츠 인식을 통해 비디오 화면의 얼굴, 텍스트, 오픈 크레딧과 엔딩 크레딧, 음성 텍스트를 식별할 수 있습니다. 오디오/비디오 콘텐츠 인식 결과에 따라 정확하고 효과적으로 비디오를 관리할 수 있습니다. 오디오/비디오 콘텐츠 인식에는 다음과 같은 기능이 포함됩니다.
기능
설명
사용 사례
얼굴 인식
화면에 등장하는 얼굴 인식
유명인이 화면에 등장하는 위치를 마크합니다.
화면에서 특정 인물을 확인합니다.
전체 음성 인식
음성 중 모든 단어 인식
음성 콘텐츠에 대한 자막을 생성합니다.
비디오의 음성 콘텐츠에 대한 데이터 분석을 수행합니다.
전체 텍스트 인식
화면에 등장하는 모든 텍스트 인식
화면 중의 텍스트에 대한 데이터 분석을 수행합니다.
음성 키워드 인식
음성에서 키워드 인식
음성에서 민감한 단어를 확인합니다.
음성에서 특정 키워드를 검색합니다.
텍스트 키워드 인식
화면에서 키워드 인식
화면에서 민감한 단어를 확인합니다.
화면에서 특정 키워드를 검색합니다.
오프닝 및 클로징 크레딧 인식
비디오의 오프닝 및 클로징 크레딧 인식
진행률 표시줄에서 오프닝/클로징 크레딧 및 본편 위치를 표시합니다.
비디오의 오프닝 및 클로징 크레딧을 일괄적으로 제거합니다.
부분 콘텐츠 인식 기능은 소재 라이브러리에 따라 다릅니다. 라이브러리에는 공용 라이브러리와 사용자 지정 라이브러리의 두 가지 유형이 있습니다.
공용 라이브러리: VOD의 사전 설정 소재 라이브러리입니다.
사용자 지정 라이브러리: 사용자가 생성하고 관리하는 소재 라이브러리입니다.
인식 유형
공용 라이브러리
사용자 지정 라이브러리
얼굴 인식
지원됩니다. 라이브러리에는 스포츠와 엔터테인먼트 산업의 유명인들도 포함됩니다.
지원됩니다. 서버 API 호출을 통해 사용자 정의 얼굴 라이브러리를 관리합니다.
음성 단어 인식
현재는 지원되지 않습니다.
지원됩니다. 서버 API 호출을 통해 키워드 라이브러리를 관리합니다.
텍스트 단어 인식
현재는 지원되지 않습니다.
지원됩니다. 서버 API 호출을 통해 키워드 라이브러리를 관리합니다.
오디오/비디오 콘텐츠 인식 템플릿
오디오/비디오 콘텐츠 인식은 아래에 설명된 대로 매개변수를 통해 세밀한 제어가 필요한 여러 인식 기능을 통합합니다.
활성화할 인식 유형: 활성화할 콘텐츠 인식 기능입니다.
사용할 라이브러리: 얼굴 인식을 위해 공용 라이브러리 또는 사용자 지정 라이브러리 사용 여부입니다.
필터 점수: 얼굴 인식 결과를 반환하기 위한 신뢰도 점수 임계값입니다.
필터 태그: 반환된 결과를 필터링하는 태그입니다.
VOD는 공통 매개변수 조합에 대해 사전 설정된 오디오/비디오 콘텐츠 인식 템플릿을 제공합니다. 또한 서버 API를 사용하여 사용자 지정 템플릿을 생성하고 관리할 수도 있습니다.
작업 시작
오디오/비디오 콘텐츠 인식 작업을 시작하는 방법에는 ‘서버 API를 통한 직접 시작’, ‘콘솔을 통한 직접 시작’ 및 ‘업로드 시 실행할 작업 지정’의 세 가지 방법이 있습니다. 자세한 내용은 비디오 처리의 작업 시작을 참고하십시오.
다음은 오디오/비디오 콘텐츠 인식 작업을 시작하는 다양한 방식에 관한 설명입니다.
서버 API ProcessMedia를 호출하여 작업 시작: 요청의 AiRecognitionTask 매개변수에 오디오/비디오 콘텐츠 인식 템플릿의 템플릿 ID를 지정합니다.
콘솔을 통해 비디오에 대한 작업 시작: 서버 API를 호출하여 태스크 플로우를 생성하고, 태스크 플로우에 비디오 콘텐츠 인식 작업(MediaProcessTask.AiRecognitionTask에서 지정)을 구성한 뒤, 콘솔에서 태스크 플로우를 사용하여 비디오 처리 시작을 진행합니다.
서버 업로드 시 작업 지정: 서버 API를 호출하여 태스크 플로우를 생성하고 태스크 플로우에 오디오/비디오 콘텐츠 인식(MediaProcessTask.AiRecognitionTask에서 지정) 작업을 구성한 뒤, 업로드 신청의 procedure를 이 태스크 플로우로 지정합니다.
클라이언트 업로드 시 작업 지정: 서버 API를 호출하여 태스크 플로우를 생성하고 태스크 플로우에 오디오/비디오 콘텐츠 인식(MediaProcessTask.AiRecognitionTask에서 지정) 작업을 구성한 뒤, 클라이언트 업로드 서명의 procedure를 이 태스크 플로우로 지정합니다.
콘솔 업로드: 서버 API를 호출하여 태스크 플로우를 생성하고, 태스크 플로우에 오디오/비디오 콘텐츠 인식 작업(MediaProcessTask.AiRecognitionTask에서 지정)을 구성합니다. 콘솔을 통해 비디오를 업로드한 뒤 업로드 중 비디오 처리를 선택하고 비디오 업로드 후 이 태스크 플로우를 실행하도록 지정합니다.
결과 가져오기
오디오/비디오 콘텐츠 인식을 시작한 후 비동기화 방식으로 결과 알림을 비동기적으로 기다리거나 작업 쿼리를 동기적으로 수행하여 작업 실행 결과를 얻을 수 있습니다. 다음은 비디오 콘텐츠 스마트 인식 작업이 시작된 후 일반 콜백 방식으로 결과 알림을 받는 예시입니다(null 값이 있는 필드는 생략).
{
    "EventType":"ProcedureStateChanged",
    "ProcedureStateChangeEvent":{
        "TaskId":"1400155958-Procedure-2e1af2456351812be963e309cc133403t0",
        "Status":"FINISH",
        "FileId":"5285890784363430543",
        "FileName":"컬렉션",
        "FileUrl":"http://1400155958.vod2.myqcloud.com/xxx/xxx/aHjWUx5Xo1EA.mp4",
        "MetaData":{
            "AudioDuration":243,
            "AudioStreamSet":[
                {
                    "Bitrate":125599,
                    "Codec":"aac",
                    "SamplingRate":48000
                }
            ],
            "Bitrate":1459299,
            "Container":"mov,mp4,m4a,3gp,3g2,mj2",
            "Duration":243,
            "Height":1080,
            "Rotate":0,
            "Size":44583593,
            "VideoDuration":243,
            "VideoStreamSet":[
                {
                    "Bitrate":1333700,
                    "Codec":"h264",
                    "Fps":29,
                    "Height":1080,
                    "Width":1920
                }
            ],
            "Width":1920
        },
        "AiRecognitionResultSet":[
            {
                "Type":"FaceRecognition",
                "FaceRecognitionTask":{
                    "Status":"SUCCESS",
                    "ErrCode":0,
                    "Message":"",
                    "Input":{
                        "Definition":10
                    },
                    "Output":{
                        "ResultSet":[
                            {
                                "Id":183213,
                                "Type":"Default",
                                "Name":"홍길동",
                                "SegmentSet":[
                                    {
                                        "StartTimeOffset":10,
                                        "EndTimeOffset":12,
                                        "Confidence":97,
                                        "AreaCoordSet":[
                                            830,
                                            783,
                                            1030,
                                            599
                                        ]
                                    },
                                    {
                                        "StartTimeOffset":12,
                                        "EndTimeOffset":14,
                                        "Confidence":97,
                                        "AreaCoordSet":[
                                            844,
                                            791,
                                            1040,
                                            614
                                        ]
                                    }
                                ]
                            },
                            {
                                "Id":236099,
                                "Type":"Default",
                                "Name":"심청이",
                                "SegmentSet":[
                                    {
                                        "StartTimeOffset":120,
                                        "EndTimeOffset":122,
                                        "Confidence":96,
                                        "AreaCoordSet":[
                                            579,
                                            903,
                                            812,
                                            730
                                        ]
                                    }
                                ]
                            }
                        ]
                    }
                }
            }
        ],
        "TasksPriority":0,
        "TasksNotifyMode":""
    }
}
﻿
콜백 결과 중 ProcedureStateChangeEvent.AiRecognitionResultSet에 Type이 FaceRecognition인 인식 결과가 있으며, 얼굴 인식을 나타냅니다.
Type이 FaceRecognition인 결과는 Output.ResultSet에 ‘홍길동’과 ‘심청이’라는 두 명의 인물 인식 결과가 포함되어 있음을 의미합니다. SegmentSet는 비디오에 얼굴이 나오는 시간대(StartTimeOffset와 EndTimeOffset으로 결정)와 화면의 좌표(AreaCoordSet로 결정)가 인식되었음을 나타냅니다.

도움말 및 지원

문제 해결에 도움이 되었나요?

더 자세한 내용은 문의하기 또는 티겟 제출 을 통해 문의할 수 있습니다.

피드백

기능	설명	사용 사례
얼굴 인식	화면에 등장하는 얼굴 인식	유명인이 화면에 등장하는 위치를 마크합니다. 화면에서 특정 인물을 확인합니다.
전체 음성 인식	음성 중 모든 단어 인식	음성 콘텐츠에 대한 자막을 생성합니다. 비디오의 음성 콘텐츠에 대한 데이터 분석을 수행합니다.
전체 텍스트 인식	화면에 등장하는 모든 텍스트 인식	화면 중의 텍스트에 대한 데이터 분석을 수행합니다.
음성 키워드 인식	음성에서 키워드 인식	음성에서 민감한 단어를 확인합니다. 음성에서 특정 키워드를 검색합니다.
텍스트 키워드 인식	화면에서 키워드 인식	화면에서 민감한 단어를 확인합니다. 화면에서 특정 키워드를 검색합니다.
오프닝 및 클로징 크레딧 인식	비디오의 오프닝 및 클로징 크레딧 인식	진행률 표시줄에서 오프닝/클로징 크레딧 및 본편 위치를 표시합니다. 비디오의 오프닝 및 클로징 크레딧을 일괄적으로 제거합니다.

인식 유형	공용 라이브러리	사용자 지정 라이브러리
얼굴 인식	지원됩니다. 라이브러리에는 스포츠와 엔터테인먼트 산업의 유명인들도 포함됩니다.	지원됩니다. 서버 API 호출을 통해 사용자 정의 얼굴 라이브러리를 관리합니다.
음성 단어 인식	현재는 지원되지 않습니다.	지원됩니다. 서버 API 호출을 통해 키워드 라이브러리를 관리합니다.
텍스트 단어 인식	현재는 지원되지 않습니다.	지원됩니다. 서버 API 호출을 통해 키워드 라이브러리를 관리합니다.

tencent cloud

Video on Demand

비디오 콘텐츠 인식

오디오/비디오 콘텐츠 인식 템플릿

작업 시작

결과 가져오기

도움말 및 지원