tencent cloud

Media Processing Service

動向とお知らせ
Release Notes
お知らせ
製品の説明
製品概要
製品の機能
製品の優位性
ユースケース
購入ガイド
課金説明
購入ガイドライン
支払い更新の説明
支払い延滞の説明
返金説明
クイックスタート
コンソールガイド
概要
タスクの作成
タスク管理
編成管理
テンプレート管理
リソースパック管理
動画評価
AIGCコンテンツの生成
ターミナルSDK
字幕編集ツール
使用量統計
CAM例
導入ガイド
音声・動画トランスコードの導入
1 音声・動画エンハンスメントの導入
Audio Separation Integration
電子透かしと可視透かしの導入
メディアAI 導入ガイド
メディア品質検査の導入
クライアントサイドSDKの導入
ライブストリームの録画機能の導入
DRMの導入
その他の導入ガイド
シナリオ実践チュートリアル
画質向上シナリオ
音声・動画コスト最適化シナリオ
ショートドラマの海外展開シナリオ
コンテンツ生成シナリオ
オンライン教育シナリオ
よくある質問
製品の基本情報について
アカウントへの権限付与について
タスク設定について
タスク開始について
タスク結果の確認について
Related Agreement
Service Level Agreement
プライバシーポリシー
データ処理とセキュリティ契約

大規模モデルによるビデオ要約の導入

PDF
フォーカスモード
フォントサイズ
最終更新日: 2025-11-05 14:18:58

無料で体験

説明:
体験ラボの機能は限定的であり、基本的な効果を体験するためのものです。完全な機能をテストするには、API経由で導入してください。
1. 体験ラボを開き、「LLM Summarize」の体験ページに移動します。オフラインビデオ(Offline File)またはライブストリーム(Live Streaming)を選択し、処理を開始(One-Click Processing)をクリックします。
2. 処理が完了すると、結果を確認できます。


APIによる導入

要約タスクの開始

メディア処理APIを呼び出し、AiAnalysisTask タスクを選択し、Definition22(プリセットの大規模モデルによる動画要約テンプレート)に設定します。ExtendedParameterには追加の拡張パラメータを記入し、特定の機能を実現します。設定値の詳細は、下記の拡張パラメータの説明をご参照ください。



例:
{
"InputInfo": {
"Type": "URL",
"UrlInputInfo": {
"Url": "https://facedetectioncos-1251132611.cos.ap-guangzhou.myqcloud.com/video/xxx.mp4" // 要約したいビデオのURLに置き換えてください
}
},
"AiAnalysisTask": {
"Definition": 22, // プリセットの大規模モデルビデオ要約テンプレートID
"ExtendedParameter": "{\\"des\\":{\\"split\\":{\\"method\\":\\"llm\\",\\"model\\":\\"deepseek-v3\\"}}}"
},
"OutputStorage": {
"CosOutputStorage": {
"Bucket": "test-mps-123456789",
"Region": "ap-guangzhou"
},
"Type": "COS"
},
"OutputDir": "/output/",
"TaskNotifyConfig": {
"NotifyType": "URL",
"NotifyUrl": "http://qq.com/callback/qtatest/?token=xxxxxx"
},
"Action": "ProcessMedia",
"Version": "2019-06-12"
}

API Explorerによるクイック検証

API Explorerを使用して、迅速に検証を行うことができます。ページで関連パラメータ情報を入力すると、APIをオンラインで呼び出すことが可能です。

拡張パラメータの説明

ExtendedParameterは、要約タスクを個別設定するために使用します。最初は入力せず、デフォルトの効果を確認した上で、改善したい方向性に応じて必要に応じて使用してください。
注意:
API Explorerは自動的に変換を行うため、ExtendedParameterには対応するJSONを直接入力してください(文字列への変換は不要です)。APIを直接呼び出す場合は、JSON文字列をエスケープする必要があります。
ExtendedParameterで選択可能なすべてのパラメータとその説明は、以下の表をご参照ください。
{
"des": {
"split": {
"method": "llm",
"model": "deepseek-v3",
"max_split_time_sec": 100,
"extend_prompt": "このビデオは医療シナリオのビデオです。医療関連の知識ポイントに基づいてビデオをセグメント化してください"
},
"need_ocr": true,
"ocr_type": "ppt",
"only_segment": 0,
"text_requirement": "要約は40字以内"
"dstlang": "zh"
}
}

パラメータ
必須入力かどうか
タイプ
説明
split.method
No
string
ビデオのセグメント化方法。llmは大規模モデルによるセグメント化、nlpは従来のNLPによるセグメント化を指します。デフォルトはllmです。
split.model
No
string
セグメント化に使用する大規模モデル。hunyuan、deepseek-v3、deepseek-r1から選択可能。デフォルトはdeepseek-v3です。
split.max_split_time_sec
No
int
セグメントの最大時間を秒単位で強制的に指定します。セグメント化の効果に影響する可能性があるため、必要な場合にのみ使用することを推奨します。デフォルトは3600です。
split.extend_prompt
No
string
大規模モデルによるセグメント化タスクへのプロンプトを追記します。例:「このビデオは教育ビデオです。関連する知識ポイントに基づいてビデオをセグメント化してください」。まずは入力せずにテストし、期待する効果が得られない場合に追加することをお勧めします。
need_ocr
No
bool
OCRをセグメント化の補助として使用するかどうか。trueで有効、デフォルトはfalseです。
無効の場合、システムはビデオの音声内容のみを認識してセグメント化を補助します。有効の場合、ビデオ画面上の文字内容も認識してセグメント化を補助します。
ocr_type
No
string
OCRの補助タイプ。pptは画面をプレゼンテーションとして扱い、スライドの切り替わりに合わせてセグメント化します。otherはその他を指します。デフォルトはpptです。
only_segment
No
int
セグメント化のみを行い、要約を生成しないかどうか。デフォルトは0です。
1:セグメント化のみ行い、要約は生成しません。
0:セグメント化と要約生成の両方を行います。
text_requirement
No
string
LLMによる要約タスクへのプロンプトを追記します。例:文字数を制限する「要約は40字以内」。
dstlang
No
string
ビデオの言語。ビデオの音声認識および要約結果の言語を指定するために使用します。デフォルトは"zh"です。
"zh":中国語
"en":英語

タスク結果の照会

タスクコールバック:ProcessMediaからメディア処理タスクを開始する際、TaskNotifyConfigパラメータでコールバック情報を設定できます。タスク処理が完了すると、設定されたコールバック情報を通じてタスク結果が通知されます。ParseNotificationからイベント通知結果を解析できます。
ProcessMediaが返したTaskIdを使用して、タスク詳細の照会インターフェースを呼び出し、タスクの処理結果を照会します。WorkflowTask > AiAnalysisResultSet > DescriptionTask > Output > DescriptionSet > MediaAiAnalysisDescriptionItemを解析してください。

Descriptionはビデオ全体の要約に、Paragraphsはビデオ全体のセグメント化結果および各セグメントの要約に対応します。

ヘルプとサポート

この記事はお役に立ちましたか?

フィードバック