製品の機能

最終更新日:2025-11-05 14:18:56

製品の機能

最終更新日: 2025-11-05 14:18:56

MPSは、音声・動画ファイルを異なるビットレートや解像度に変換し、異なるネットワーク帯域幅やデバイスでの再生ニーズに対応します。以下の機能をサポートしています。
音声・動画トランスコーディング
﻿
トランスコードは、元の音声・動画ビットストリームを別の音声・動画ビットストリームに変換するオフラインタスクです。これにより、エンコード形式、解像度、ビットレートなどのパラメータを変更し、異なる端末やネットワーク環境での再生に対応できます。トランスコードで以下の機能が実現できます。
対応機能
説明
より多くの端末に対応
元の動画を（MP4などの）より高い端末適応性を持つ形式にトランスコードし、動画リソースがより多くの端末で再生できるようにします。
異なる帯域幅に対応
動画をノーマル画質、高画質、HD画質、フルHD画質などに変換でき、ユーザーは現在のネットワーク環境に応じて最適なビットレートを選択し、動画を再生することが可能です。
再生効率の向上
トランスコードにより、MP4ファイルの最後にあるメタ情報（MOOV）をヘッダーに移動させ、プレーヤーは動画全体をダウンロードしなくても、即座に再生を開始できます。
帯域幅の節約
（H.265などの）高度なコーデックを使用することで、画質を維持しながらビットレートを大幅に低減し、再生に必要な帯域幅を節約できます。
トランスコードの出力仕様には、エンコード形式、解像度、ビットレートなどのパラメータが含まれています。以下のトランスコード関連パラメータをカスタマイズできます。
パラメータ      
タイプ      
詳細説明   
入力形式
コンテナ形式
3GP、AVI、FLV、MP4、M3U8、MPG、ASF、WMV、MKV、MOV、TS、WebM、MXF。
﻿
動画エンコード形式
AV1、AVS2、H.264/AVC、H.264 intra、H.263、 H.263+、H.265/HEVC、MV-HEVC、H.266/VVC、MPEG-1、MPEG-2、MPEG-4、MJPEG、VP8、VP9、RealVideo、Windows Media Video、WMV2、Quicktime。
﻿
音声エンコード形式
AAC、ADPCM、AMR、DSD、MP1、MP2、MP3、PCM、RealAudio、Windows Media Audio、VORBIS、AC-3。
出力形式
コンテナ形式
動画：FLV、MP4、HLS（m3u8+ts）、MXF。
﻿
﻿
音声：MP3、MP4、OGG、FLAC、m4a、PCM。
﻿
﻿
画像：GIF、WEBP。
﻿
動画エンコード形式
AV1、H.264/AVC、H.264 intra、H.265/HEVC、MV-HEVC、H.266/VVC、MPEG-2、MPEG-4、MJPEG、VP8、VP9、RealVideo、Windows Media Video、WMV2。
﻿
音声エンコード形式
MP3、AAC、FLAC、MP2、VORBIS。
コンテナ
ビデオストリームの削除
「ビデオストリームの削除」を有効にすると、トランスコードにより出力した動画ファイルにはビデオストリームが含まれず、オーディオストリームのみが保持されます。
﻿
オーディオストリームの削除
「オーディオストリームの削除」を有効にすると、トランスコードにより出力した動画ファイルにはオーディオストリームが含まれず、ビデオストリームのみが保持されます。
音声・動画強化
MPS業界最先端の音声・動画AI処理モデルと豊富な業務データの蓄積により、音声・動画強化は音声と動画の品質を大幅に向上させ、OTT、Eコマース、スポーツイベントなどのシナリオで広く活用され、QoEやQoSの向上といった業務価値をもたらします。
﻿
強化タイプ
機能
説明
動画強化
超解像度
超解像技術は動画の内容と輪郭を識別し、ディテールと局所的な特徴を高精細に再構築することで、低解像度の動画を高解像度の動画に変換します。古い映像の修復などに適しています。
﻿
低照度補正
撮影環境やカメラのハードウェア性能上、一部のシーンで撮影された映像は、輝度やコントラストが低くなったり、画面が暗くなったり、暗部が見づらくなったりすることがあります。低照度補正機能を使用すると、暗部のディテールとコントラストを大幅に向上させ、画質品質を高めます。
﻿
HDR
HDR10、HLGに対応し、より広い色域を獲得し、色彩のディテールを豊かに表現することで、さらに高品質な動画コンテンツを提供します。
﻿
総合強化
AIの総合的な分析能力により、映像内のテクスチャのバランスを自動で調整し、圧縮によるアーティファクトや乱れを除去すると同時に、重要なディテールを強調することで、画面全体から受ける直感的な印象を向上させます。
﻿
色調補正
色調補正により、画面をよりリアルな色に近づけ、かつ人間の視覚特性に合わせた色彩表現を実現できます。
﻿
ディテール強化
ディテール強化は、動画内で注目すべきディテール（例：競技場の芝生）に対して強調処理を施し、画面のコンテンツをより鮮明で豊かにします。
﻿
顔補正
顔検出技術により、人間の視覚が特に関心を寄せる顔部分を補正し、その領域のディテールをより鮮明にし、主観的な視覚体験を向上させます。
﻿
傷除去
傷除去は、動画の傷やノイズなどの問題を修復できます。
﻿
アーティファクト除去
動画がトランスコードまたは複数回のトランスコードプロセスで複数回圧縮された場合、ブロック、リンギング、色彩浸透、ノイズなどが発生し、視覚効果に影響を与える歪みが発生します。圧縮による歪みの除去は、エンコード処理中に生じた歪みを効果的に修復できます。
﻿
動画ノイズリダクション
映像撮影中にはカメラや環境によってランダムノイズが発生することがあります。ここでは、細部を損なわずに画面のランダムノイズを除去するノイズリダクションサービスを提供します。
音声強化
音声ノイズリダクション
音声スマートノイズリダクションは、機材のノイズや環境騒音などを除去でき、講義の録画や屋外での撮影のポストプロダクションなどのシナリオに適しています。
﻿
音源分離
音声・動画ファイルから、人の声と背景音、またはボーカルと伴奏を分離し、独立した音声素材を生成します。これにより、ポストプロダクションでの様々なスタイルの芸術的な加工が容易になります。
﻿
イコライザー
1. ラウドネス正規化：全体のラウドネスレベルを均一に維持し、再生時に音量が同じ程度に聞こえるように調整します。これにより、音量が大きすぎたり小さすぎたりする問題を解消し、より良い聴覚体験を提供します。
2. 音量急変抑制：音量が大きすぎる音声区間を正規化することで、音量の急激な変化を防ぎ、よりスムーズな視聴体験を提供します。
﻿
音質補正
1. ノイズ除去：音声に含まれる不要なノイズや雑音を減らし、音質と明瞭度を向上させます。
2. 歯擦音抑制：歯擦音とは音声中の鋭く耳障りな音で、通常は音源がマイクに近づきすぎた際に発生します。歯擦音抑制機能は、この不自然な音を低減または除去し、音質を改善することを目的とします。
透かし
透かし追加は、動画のトランスコードやスクリーンショット時に、特定の画像を画面の指定された位置に重ねるオフラインタスクです。MPSは以下のタイプの透かしをサポートしています。
静止画透かし：PNG形式の画像透かしです。著作権者側のロゴやテレビ局のロゴマークなど、動画の著作権の帰属を示すために広く利用されています。
動画透かし：APNG形式の動画透かしです。透かし画像が動的に変化する効果を実現できます。
MPSでは、動画やスクリーンショットに複数の透かしを追加し、それぞれの透かしサイズと位置を指定することができます。
透かしの出力仕様には、透かしタイプ、幅・高さ、位置などのパラメータが含まれています。以下の透かし関連パラメータをカスタマイズできます。
パラメータ
説明
透かしタイプ（Type）
静止画透かしと動画透かしに対応しています。
透かし位置（Position）
動画画面内における透かしの相対位置です。
画像サイズ（ImageSize）
動画画面に対する透かし画像のサイズです。
画像コンテンツ（ImageContent）
透かし画像のバイナリデータです。
動画スクリーンショット
スクリーンショットは、動画の特定位置から画像を抽出・生成するオフラインタスクです。MPSは以下のスクリーンショットタイプを提供しています。
タイムポイントでのスクリーンショット：指定されたタイムポイントにおける動画画像を抽出します。
サンプリングスクリーンショット：動画を一定間隔で区切り、複数枚の画像を抽出します。
スプライト：動画を一定間隔で区切り、複数枚の小さい画像を抽出してから、いくつかの大きな画像に統合します。
スクリーンショットの出力仕様には、スクリーンショットファイルの形式、幅・高さなどのパラメータが含まれています。以下のスクリーンショット関連パラメータをカスタマイズできます。
タイムポイントでのスクリーンショット
パラメータ
説明
形式（Format）
スクリーンショットの出力形式です。現在はJPGのみをサポートしています。
幅（Width）
スクリーンショットの幅です。範囲：128px～4096px。
高さ（Height）
スクリーンショットの高さです。範囲：128px～4096px。
埋め込み方法（FillType）
スクリーンショットのアスペクト比が元の動画と一致しない場合の処理方法は「フィル」です。一般的には以下のフィリング方法を利用できます。
ストレッチ：画像を引き伸ばして全体を埋めます。画像が「押しつぶされた」または「引き伸ばされた」状態になる可能性があります。
黒埋め：アスペクト比を保持し、余白を黒で埋めます。
白埋め：アスペクト比を保持し、余白を白で埋めます。
ガウシアンぼかし：アスペクト比を保持し、余白をガウシアンぼかしで処理した元画像で埋めます。
サンプリングスクリーンショット
パラメータ
説明
形式（Format）
スクリーンショットの出力形式です。現在はJPGのみをサポートしています。
幅（Width）
スクリーンショットの幅です。範囲：128px～4096px。
高さ（Height）
スクリーンショットの高さです。範囲：128px～4096px。
サンプリングタイプ（SampleType）
サンプリングタイプは2種類あります。
パーセンテージで：例えば、5%間隔でサンプリングする場合、生成されるスクリーンショットは20枚となります。
時間間隔で：例えば、10秒を間隔としてサンプリングする場合、スクリーンショットの枚数は動画の長さによって決まります。
サンプリング間隔（Interval）
サンプリング間隔の長さは以下の通りです。
パーセンテージでサンプリングする場合、間隔はパーセント値です。
時間間隔でサンプリングする場合、間隔は秒数です。
埋め込み方法（FillType）
スクリーンショットのアスペクト比が元の動画と一致しない場合の処理方法は「フィル」です。一般的には以下のフィリング方法を利用できます。
ストレッチ：画像を引き伸ばして全体を埋めます。画像が「押しつぶされた」または「引き伸ばされた」状態になる可能性があります。
黒埋め：アスペクト比を保持し、余白を黒で埋めます。
白埋め：アスペクト比を保持し、余白を白で埋めます。
ガウシアンぼかし：アスペクト比を保持し、余白をガウシアンぼかしで処理した元画像で埋めます。
スプライト
パラメータ
説明
形式（Format）
スプライトの出力形式です。現在はJPGのみをサポートしています。
サムネイル幅（Width）
スプライト内のサムネイルの幅です。
サムネイル高さ（Height）
スプライト内のサムネイルの高さです。
サムネイル行数（Rows）
1枚の大きな画像内のサムネイルの行数。
サムネイル列数（Columns）
1枚の大きな画像内のサムネイルの列数。
サンプリングタイプ（SampleType）
サムネイルのサンプリングタイプです。現在は時間間隔でのサンプリングのみをサポートしています。
サンプリング間隔（Interval）
サムネイルのサンプリング間隔です。どのくらいの間隔で1枚抽出するかを決めます。
注意：
幅×列数は128px～4096px（大きな画像の幅が128px～4096px）の範囲内である必要があります。
高さ×行数は128px～4096px（大きな画像の高さが128px～4096px）の範囲内である必要があります。
動画からGIFへの変換
GIF変換は、動画のクリップからGIFやWEBPなどのアニメーション画像を生成するオフラインタスクです。GIFは連続フレームのシームレスなループ再生で、軽量なファイルサイズでアニメーション効果を実現できます。
GIFの出力仕様には、形式、幅・高さ、フレームレートなどのパラメータが含まれています。以下のGIF関連パラメータをカスタマイズできます。
パラメータ
説明
形式（Format）
GIFの出力形式です。現在はGIFとWEBPのみをサポートしています。
幅（Width）
GIFの幅です。範囲：128px～4096px。
高さ（Height）
GIFの高さです。範囲：128px～4096px。
フレームレート（FPS）
対応するフレームレートの範囲は1fps～60fpsです。
メディアAI／メディアインテリジェンス
メディアAIには、スマート字幕、スマート消去、大規模モデルによる要約、スマートタグ、スマートROI、インテリジェント横縦変換、顔認識、音声／テキスト認識、インテリジェント分析などの機能が含まれています。ライブ配信、エンターテインメント、教育など、数多くの業界で豊富な実績があり、ショートドラマの海外展開、ビデオ会議、オンライン教育、ライブ配信など、多様なシーンでのニーズに対応し、コンテンツの制作効率を向上させます。
スマート字幕
スマート字幕機能は、オンデマンド動画やライブストリームの音声をリアルタイムで認識し、字幕に変換して多言語翻訳を行うことができ、中国語、英語、日本語、韓国語など、多言語に対応しています。ライブ字幕や海外向け動画翻訳などに適用されます。また、動画内の既存字幕を文字認識技術で抽出し、字幕ファイルを生成することも可能で、古い映像の修復や高精細リマスターなどのシナリオに適用できます。ホットワード用語種・専門用語集の設定により認識精度を向上させることもサポートしています。詳細については、字幕生成および翻訳をご参照ください。
技術的優位性
全プラットフォーム対応：オンデマンドファイル、ライブストリーム、インタラクティブな音声・動画に対応しています。ライブ配信の同時通訳字幕はスタティック字幕とグラデーション字幕をサポートし、導入が容易で、プレーヤー側の変更は不要です。
高精度：大規模モデルにより処理を行い、ホットワード用語集や専門用語集に対応し、認識精度は業界トップレベルです。
多言語対応：100以上の言語、各地域の方言、中国語と英語の混在などの混合言語認識に対応しています。
スタイルカスタマイズ：字幕の動画への焼き込みをサポートしています。字幕スタイル（フォント、フォントサイズ、文字色、背景色、位置など）がカスタマイズ可能で、ページ上のカスタムレンダリングにも対応しています。
﻿
﻿
﻿
スマート消去
スマート消去は、動画内の字幕、顔、ナンバープレートなどにぼかしやモザイク処理を施し、または痕跡なく除去することができます。これにより、コンテンツの流通と共有を容易にします。ショートドラマ・ショート動画プラットフォーム、越境EC、個人メディアスタジオなど幅広い分野で活用されています。詳細については、スマート消去の導入をご参照ください。
高いカスタマイズ性：お客様の具体的な動画シーンに応じて、モデルパラメータをカスタマイズでき、消去精度と処理効果を向上させ、より自然で滑らかな仕上がりを保証します。
﻿
ハイライト集／名場面集
ハイライト集機能は、「男女主人公の対立シーン」や「迫力のあるアクションシーン」など、見どころシーンに対応するキーワードを予め定義します。画像特徴とテキスト特徴を統一された特徴空間にマッピングすることで、これらのキーワードを活用して動画内から的確に対象シーンを検出し、最も注目を集めるシーンを抽出します。映画・ドラマ、サッカー、バスケットボール、PUBG、王者栄耀などの動画シーンに対応し、カスタマイズも可能です。詳細については、ハイライト集の導入をご参照ください。
技術的優位性
全プラットフォーム対応：オンデマンドオフライン動画処理に加え、ライブストリーム処理にも対応し、過去のライブ配信コンテンツからハイライトクリップを生成することも可能です。
多様なシーンに対応：映画・ドラマ、スポーツイベント、ゲーム実況、ニュース番組など様々な動画コンテンツに対応しています。
高いカスタマイズ性：お客様の具体的な動画シーンに応じて、モデルパラメータをカスタマイズし、最適化できます。
﻿
スマート分割
スマート分割機能は動画コンテンツを構造的に分析することで、長尺動画をセグメント単位に分割処理し、会議、研修、講座など、様々なシーンで活用できます。例えば、ニュース番組の素材を複数の独立したニュースイベント動画に分割するといった処理ができます。これにより、ニュースやスポーツ動画の分割品質を大幅に向上し、二次創作を促進するとともに、人件費とハードウェアコストの削減を実現します。詳細については、スマート分割の導入をご参照ください。
﻿
﻿
﻿
大規模モデルによる動画要約
NLP技術を活用した大規模モデルによる動画要約機能は教育コンテンツ、ニュース、スピーチなどの動画シーンに対し、ASR認識結果に基づいてHunyuanによる要約を生成できます。優れた抽出・要約能力により、動画を繰り返し再生することなく、内容を素早く理解できます。また、オフラインセグメント化とライブ配信のリアルタイムセグメント化に対応し、段落要約とキーワードを自動抽出することで、ユーザーが興味のある動画セグメントを素早く特定できるようサポートし、利用効率を向上させます。詳細については、大規模モデルによる動画要約の導入をご参照ください。
技術的優位性
全プラットフォーム対応：オンデマンドオフライン動画処理に加え、ライブストリーム処理にも対応しています。
多言語対応：中国語、英語などの言語に対応しています。
﻿
﻿
﻿
インテリジェント横縦変換
横縦変換は単純な回転ではなく、関心領域（ROI、Region of Interest）を認識し、モバイルデバイスに適した比率にクロップする処理です。横縦変換はショート動画への一括変換機能を提供し、既存の横型動画リソースを縦型動画リソースに変換できます。詳細については、インテリジェント横縦変換の導入をご参照ください。
技術的優位性
複数人物シーンに対応：動画に2人の人物が検出される場合、画面を上下に自動分割し、縦型動画で2人をそれぞれ表示できます。
高いカスタマイズ性：お客様の具体的な動画シーンに応じて、モデルパラメータをカスタマイズし、最適化できます。
﻿
﻿
﻿
ROIスマート認識
ROIスマート認識技術は、動画内の顔、ゲームキャラクター、配信者などの主要要素の座標情報をリアルタイムで識別し、関心領域情報（ROI）として動画のエンコーディングに含めて再生端に伝送します。プレーヤーがROI情報を活用することで、スマート弾幕の非遮蔽処理や背景のぼかしなどが実現できます。現在、ROIスマート認識はライブストリーム処理に対応しています。オフライン動画の処理をご希望の場合は、弊社までお問い合わせください。詳細については、ライブ配信ROIスマート認識ガイドをご参照ください。
﻿
﻿
﻿
スマート認識
﻿スマート認識
はTencentラボの最新研究成果を基に、動画コンテンツに対する包括的な認識機能を提供します。動画内の人物、音声、文字、フレームタグの認識に対応し、動画を多次元で構造的に解析します。
認識タイプ
機能説明
顔認識
ディープラーニングソリューションに基づき、動画内の顔情報を素早く認識し、該当人物が映るフレームと顔の位置を即座に特定できます。お客様は独自の人物ライブラリを作成するか、ビデオAIの公開人物ライブラリを呼び出して顔認識を行うことができます。
音声認識（ASR）
ディープラーニングソリューションに基づき、動画内の音声を素早く認識してテキストに変換できます。カスタムキーワードの設定と、キーワードが動画内で出現するタイムポイントの特定に対応しています。
文字認識
動画内に表示されるテキスト情報の認識をサポートし、カスタムキーワードの抽出や、縦書きテキストの認識にも対応しています。
フレームタグ認識
ディープラーニングソリューションに基づき、お客様が設定したフレーム抽出間隔でフレーム内のタグを自動で認識し、該当タグの動画内位置を特定します。フレームタグは人物、風景、人工物、建築、動植物、食品など9つのカテゴリーをカバーし、日常生活のあらゆる情報の次元を含みます。また、既存のタグ体系にカスタムタグを追加でき、転移学習能力を備えているため、元のユーザーデータを提供するだけで分類器をカスタマイズでき、様々なユーザーニーズに対応し、より柔軟なタグ分類を実現できます。
オープニング・エンディング検出
動画の画面特徴、テキスト、音声情報に基づき、映画やドラマのオープニング／エンディングのタイムポイントを自動的に認識・特定します。
インテリジェント分析
分析タイプ
機能説明
カテゴリー認識
動画コンテンツを分析し、動画に適したカテゴリーを推奨します。現在、グルメ、旅行、アニメ、音楽など19のカテゴリーに対応しています（カスタマイズ可能ですが、別途費用がかかります）。
動画タグ認識
Tencentのディープラーニングソリューションに基づき、動画コンテンツに最も適した上位5つのタグ要約をスマート認識します。動画推薦や検索などのシナリオで使用でき、ユーザーはインターフェスで返されるタグ数を選択できます。
スマートカバー
動画の画面テクスチャやシーン認識などの特徴情報により、ファイルカバー画像を自動で生成します。静止画カバーの出力に対応し、動画カバーの品質とクリック率を向上させます。
スマート審査
スマート審査はAIを活用し、動画コンテンツ（画面、音声、テキストの3つの次元）に対し、ポルノ・違法・規制違反コンテンツの検査を実施します。
検出タイプ
検査項目の説明
動画画面審査
動画画面に対し、ポルノ・違法・規制違反コンテンツの検査を実施します。具体的な検査項目は以下の通りです。
不適切コンテンツ検出
porn：ポルノ
vulgar：下品
intimacy：不適切な接触
sexy：セクシー
違法・規制違反コンテンツ検出
guns：武器・銃器
bloody：流血表現
explosion：爆発・火災
violation_photo：違反アイコン
音声審査
音声内のテキストを検出します。具体的な検査項目は以下の通りです。
不適切コンテンツ検出：音声内のテキストから不適切なコンテンツの有無をチェックし、疑わしいキーワードを検出します。
違法・規制違反コンテンツ検出：音声内のテキストから違法・規制違反コンテンツの有無をチェックし、疑わしいキーワードを識別します。
文字審査
画面内の文字を検出します。具体的な検査項目は以下の通りです。
不適切コンテンツ検出：画面内の文字から不適切なコンテンツの有無をチェックし、疑わしいキーワードを検出します。
違法・規制違反コンテンツ検出：画面内の文字から違法・規制違反コンテンツの有無をチェックし、疑わしいキーワードを識別します。
メディア品質検査
ライブ配信・オンデマンド動画の形式品質検査、画面コンテンツ品質検査、音声品質検査に対応し、動画全体の品質検査と評価を提供します。
﻿
品質検査タイプ
検出タイプ
検査項目の説明
形式品質検査
オンデマンド動画の形式品質検査
ライブストリームの形式品質検査
DTS、PTS問題、解像度変化、サンプリングレート変化、フレーム落ち、重複フレームなどの形式関連問題を検出します。
ノンリファレンス型評価
動画ノンリファレンススコア
多次元の評価指標に基づき、動画品質を100点満点で採点します。
品質検査
画面品質
動画の画面品質を検査します。具体的な検査項目は以下の通りです。
JitterResults：画面のブレ。
BlurResults：画面のぼかし。
AbnormalLightingResults：低照度、露出オーバー。
CrashScreenResults：ブロックノイズ
BlackWhiteEdgeResults：画面の黒枠、白枠、ブラックスクリーン、ホワイトアウト、単色スクリーンが発生する時間帯。
NoiseResults：画面のノイズ。
MosaicResults：画面のモザイク。
QRCodeResults：画面のQRコード。
﻿
音声品質
動画の音声品質を検査します。具体的な検査項目は以下の通りです。
VoiceResults：音声不具合（無音、小音量、音割れを含む）。
動画評価
汎用的で包括的な動画評価能力を備え、さまざまな動画ソースや形式の動画に対して、VMAF、PSNR、SSIM、VMAF-NEGスコアリングやBD-Rate計算をサポートします。ワンストップで完全な評価レポートと指標分析を提供します。
カテゴリー
機能
説明
オンデマンド動画
動画品質評価
元の動画と比較動画を追加し、動画品質を評価します。
VMAF、PSNR、SSIM、VMAF-NEG評価方法をサポートしています。
評価する時間帯またはフレーム数範囲をカスタマイズして選択できます。
﻿
BD-Rate比較評価
MPSテンプレートを選択し、異なるテンプレートにおいて、異なるビットレートがトランスコード品質に与える影響を評価・比較します。
VMAF、PSNR、SSIM、VMAF-NEG評価方法をサポートしています。
評価する時間帯またはフレーム数範囲をカスタマイズして選択できます。
指定されたビットレートによる評価スコア比較、または指定されたCRF（動画品質スコア）によるビットレート比較をサポートします。
ライブストリーム
画面品質
ライブストリームのトランスコード前後の画面品質とビットレート変化をリアルタイムで比較・モニタリングします。
﻿
ライブ配信の録画
ライブストリームURLを入力することで、ライブ配信のコンテンツを簡単かつ迅速に録画できます。録画サイクル、単一TSセグメントの長さのプリセットに対応し、録画の再開機能を実現します。
﻿
パラメータ
パラメータ説明
単一TSセグメントの長さ
単一TSセグメントの長さは5秒～30秒の範囲で設定できます。
セグメント録画時間
設定範囲は10～720分です。設定したセグメント録画時間を超えると、新しいファイルが生成されます。
録画再開の待機時間
設定範囲は60秒～1800秒です。録画再開の待機時間は録画ファイルの生成タイミングに直接影響します。
ターミナルSDK
ターミナルSDKはTencent Cloudが提供する音声・動画ターミナル向けの製品機能です。動画エンコーディング、音声強化、動画強化の3種類の機能SDKを含み、多様なシーンでのニーズに対応し、特定の製品機能を提供します。ターミナルSDK製品はお客様の端末デバイスで動作し、モバイル、Web、PCなど、複数のデバイスでの接続をサポートしています。具体的な操作については、ターミナルSDK導入ガイドをご参照ください。
ターミナルSDKタイプ
機能説明
ターミナル動画エンコーディングSDK
Tencent TSCターミナル動画エンコーダーは、端末側の低スペック環境、低遅延、高画質というシナリオに焦点を当てて開発されたエンコーダーです。ハードウェアエンコーダーとの比較における強みは以下の通りです。
 安定性と信頼性に優れ、起動も速いです。
 同等の画質でビットレートを削減し、伝送の安定性を向上させ、下り配信の帯域幅を節約し、ストレージコストの削減を実現できます。
 同等のビットレートで画質を改善し、ユーザー体験を向上させます。
 ROIエンコーディングによる顔領域の画質向上や、ネットワーク変動に応じた動的エンコード設定など、多様な業務ニーズに対応する豊富な機能を備えています。
ターミナル音声SDK
ターミナル音声SDKにはスタンダード版、プロ版、フラッグシップ版があり、以下の機能に対応しています。
音響エコーキャンセレーション
自動利得制御
アダプティブノイズリダクション
音楽モード対応エコーキャンセリング
イコライザー
AIによるスマートノイズリダクション
音声エンコード
AI Codec
端末強化SDK
クライアント強化SDKは、効率的な画像処理アルゴリズムとAIモデル推論能力に基づき、端末での動画超解像、画質強化、フレーム補間などの機能を実現します。スタンダード版、プロ版、フラッグシップ版を含み、以下の機能に対応しています。
標準超解像／プロフェッショナル超解像／標準超解像＋強化パラメータ
AIによる画質強化
AIによるフレーム補間

この記事はお役に立ちましたか？

営業担当者にお問い合わせいただくかチケットを提出してサポートを求めることができます。

はい

いいえ

フィードバック

対応機能	説明
より多くの端末に対応	元の動画を（MP4などの）より高い端末適応性を持つ形式にトランスコードし、動画リソースがより多くの端末で再生できるようにします。
異なる帯域幅に対応	動画をノーマル画質、高画質、HD画質、フルHD画質などに変換でき、ユーザーは現在のネットワーク環境に応じて最適なビットレートを選択し、動画を再生することが可能です。
再生効率の向上	トランスコードにより、MP4ファイルの最後にあるメタ情報（MOOV）をヘッダーに移動させ、プレーヤーは動画全体をダウンロードしなくても、即座に再生を開始できます。
帯域幅の節約	（H.265などの）高度なコーデックを使用することで、画質を維持しながらビットレートを大幅に低減し、再生に必要な帯域幅を節約できます。

パラメータ	タイプ	詳細説明
入力形式	コンテナ形式	3GP、AVI、FLV、MP4、M3U8、MPG、ASF、WMV、MKV、MOV、TS、WebM、MXF。
		動画エンコード形式	AV1、AVS2、H.264/AVC、H.264 intra、H.263、 H.263+、H.265/HEVC、MV-HEVC、H.266/VVC、MPEG-1、MPEG-2、MPEG-4、MJPEG、VP8、VP9、RealVideo、Windows Media Video、WMV2、Quicktime。
		音声エンコード形式	AAC、ADPCM、AMR、DSD、MP1、MP2、MP3、PCM、RealAudio、Windows Media Audio、VORBIS、AC-3。
出力形式	コンテナ形式	動画：FLV、MP4、HLS（m3u8+ts）、MXF。
				音声：MP3、MP4、OGG、FLAC、m4a、PCM。
				画像：GIF、WEBP。
		動画エンコード形式	AV1、H.264/AVC、H.264 intra、H.265/HEVC、MV-HEVC、H.266/VVC、MPEG-2、MPEG-4、MJPEG、VP8、VP9、RealVideo、Windows Media Video、WMV2。
		音声エンコード形式	MP3、AAC、FLAC、MP2、VORBIS。
コンテナ	ビデオストリームの削除	「ビデオストリームの削除」を有効にすると、トランスコードにより出力した動画ファイルにはビデオストリームが含まれず、オーディオストリームのみが保持されます。
コンテナ		オーディオストリームの削除	「オーディオストリームの削除」を有効にすると、トランスコードにより出力した動画ファイルにはオーディオストリームが含まれず、ビデオストリームのみが保持されます。

強化タイプ	機能	説明
動画強化	超解像度	超解像技術は動画の内容と輪郭を識別し、ディテールと局所的な特徴を高精細に再構築することで、低解像度の動画を高解像度の動画に変換します。古い映像の修復などに適しています。
		低照度補正	撮影環境やカメラのハードウェア性能上、一部のシーンで撮影された映像は、輝度やコントラストが低くなったり、画面が暗くなったり、暗部が見づらくなったりすることがあります。低照度補正機能を使用すると、暗部のディテールとコントラストを大幅に向上させ、画質品質を高めます。
		HDR	HDR10、HLGに対応し、より広い色域を獲得し、色彩のディテールを豊かに表現することで、さらに高品質な動画コンテンツを提供します。
		総合強化	AIの総合的な分析能力により、映像内のテクスチャのバランスを自動で調整し、圧縮によるアーティファクトや乱れを除去すると同時に、重要なディテールを強調することで、画面全体から受ける直感的な印象を向上させます。
		色調補正	色調補正により、画面をよりリアルな色に近づけ、かつ人間の視覚特性に合わせた色彩表現を実現できます。
		ディテール強化	ディテール強化は、動画内で注目すべきディテール（例：競技場の芝生）に対して強調処理を施し、画面のコンテンツをより鮮明で豊かにします。
		顔補正	顔検出技術により、人間の視覚が特に関心を寄せる顔部分を補正し、その領域のディテールをより鮮明にし、主観的な視覚体験を向上させます。
		傷除去	傷除去は、動画の傷やノイズなどの問題を修復できます。
		アーティファクト除去	動画がトランスコードまたは複数回のトランスコードプロセスで複数回圧縮された場合、ブロック、リンギング、色彩浸透、ノイズなどが発生し、視覚効果に影響を与える歪みが発生します。圧縮による歪みの除去は、エンコード処理中に生じた歪みを効果的に修復できます。
		動画ノイズリダクション	映像撮影中にはカメラや環境によってランダムノイズが発生することがあります。ここでは、細部を損なわずに画面のランダムノイズを除去するノイズリダクションサービスを提供します。
音声強化	音声ノイズリダクション	音声スマートノイズリダクションは、機材のノイズや環境騒音などを除去でき、講義の録画や屋外での撮影のポストプロダクションなどのシナリオに適しています。
		音源分離	音声・動画ファイルから、人の声と背景音、またはボーカルと伴奏を分離し、独立した音声素材を生成します。これにより、ポストプロダクションでの様々なスタイルの芸術的な加工が容易になります。
		イコライザー	1. ラウドネス正規化：全体のラウドネスレベルを均一に維持し、再生時に音量が同じ程度に聞こえるように調整します。これにより、音量が大きすぎたり小さすぎたりする問題を解消し、より良い聴覚体験を提供します。 2. 音量急変抑制：音量が大きすぎる音声区間を正規化することで、音量の急激な変化を防ぎ、よりスムーズな視聴体験を提供します。
		音質補正	1. ノイズ除去：音声に含まれる不要なノイズや雑音を減らし、音質と明瞭度を向上させます。 2. 歯擦音抑制：歯擦音とは音声中の鋭く耳障りな音で、通常は音源がマイクに近づきすぎた際に発生します。歯擦音抑制機能は、この不自然な音を低減または除去し、音質を改善することを目的とします。

パラメータ	説明
透かしタイプ（Type）	静止画透かしと動画透かしに対応しています。
透かし位置（Position）	動画画面内における透かしの相対位置です。
画像サイズ（ImageSize）	動画画面に対する透かし画像のサイズです。
画像コンテンツ（ImageContent）	透かし画像のバイナリデータです。

パラメータ	説明
形式（Format）	スクリーンショットの出力形式です。現在はJPGのみをサポートしています。
幅（Width）	スクリーンショットの幅です。範囲：128px～4096px。
高さ（Height）	スクリーンショットの高さです。範囲：128px～4096px。
埋め込み方法（FillType）	スクリーンショットのアスペクト比が元の動画と一致しない場合の処理方法は「フィル」です。一般的には以下のフィリング方法を利用できます。ストレッチ：画像を引き伸ばして全体を埋めます。画像が「押しつぶされた」または「引き伸ばされた」状態になる可能性があります。黒埋め：アスペクト比を保持し、余白を黒で埋めます。白埋め：アスペクト比を保持し、余白を白で埋めます。ガウシアンぼかし：アスペクト比を保持し、余白をガウシアンぼかしで処理した元画像で埋めます。

認識タイプ	機能説明
顔認識	ディープラーニングソリューションに基づき、動画内の顔情報を素早く認識し、該当人物が映るフレームと顔の位置を即座に特定できます。お客様は独自の人物ライブラリを作成するか、ビデオAIの公開人物ライブラリを呼び出して顔認識を行うことができます。
音声認識（ASR）	ディープラーニングソリューションに基づき、動画内の音声を素早く認識してテキストに変換できます。カスタムキーワードの設定と、キーワードが動画内で出現するタイムポイントの特定に対応しています。
文字認識	動画内に表示されるテキスト情報の認識をサポートし、カスタムキーワードの抽出や、縦書きテキストの認識にも対応しています。
フレームタグ認識	ディープラーニングソリューションに基づき、お客様が設定したフレーム抽出間隔でフレーム内のタグを自動で認識し、該当タグの動画内位置を特定します。フレームタグは人物、風景、人工物、建築、動植物、食品など9つのカテゴリーをカバーし、日常生活のあらゆる情報の次元を含みます。また、既存のタグ体系にカスタムタグを追加でき、転移学習能力を備えているため、元のユーザーデータを提供するだけで分類器をカスタマイズでき、様々なユーザーニーズに対応し、より柔軟なタグ分類を実現できます。
オープニング・エンディング検出	動画の画面特徴、テキスト、音声情報に基づき、映画やドラマのオープニング／エンディングのタイムポイントを自動的に認識・特定します。

分析タイプ	機能説明
カテゴリー認識	動画コンテンツを分析し、動画に適したカテゴリーを推奨します。現在、グルメ、旅行、アニメ、音楽など19のカテゴリーに対応しています（カスタマイズ可能ですが、別途費用がかかります）。
動画タグ認識	Tencentのディープラーニングソリューションに基づき、動画コンテンツに最も適した上位5つのタグ要約をスマート認識します。動画推薦や検索などのシナリオで使用でき、ユーザーはインターフェスで返されるタグ数を選択できます。
スマートカバー	動画の画面テクスチャやシーン認識などの特徴情報により、ファイルカバー画像を自動で生成します。静止画カバーの出力に対応し、動画カバーの品質とクリック率を向上させます。

検出タイプ	検査項目の説明
動画画面審査	動画画面に対し、ポルノ・違法・規制違反コンテンツの検査を実施します。具体的な検査項目は以下の通りです。不適切コンテンツ検出 porn：ポルノ vulgar：下品 intimacy：不適切な接触 sexy：セクシー違法・規制違反コンテンツ検出 guns：武器・銃器 bloody：流血表現 explosion：爆発・火災 violation_photo：違反アイコン
音声審査	音声内のテキストを検出します。具体的な検査項目は以下の通りです。不適切コンテンツ検出：音声内のテキストから不適切なコンテンツの有無をチェックし、疑わしいキーワードを検出します。違法・規制違反コンテンツ検出：音声内のテキストから違法・規制違反コンテンツの有無をチェックし、疑わしいキーワードを識別します。
文字審査	画面内の文字を検出します。具体的な検査項目は以下の通りです。不適切コンテンツ検出：画面内の文字から不適切なコンテンツの有無をチェックし、疑わしいキーワードを検出します。違法・規制違反コンテンツ検出：画面内の文字から違法・規制違反コンテンツの有無をチェックし、疑わしいキーワードを識別します。

品質検査タイプ	検出タイプ	検査項目の説明
形式品質検査	オンデマンド動画の形式品質検査ライブストリームの形式品質検査	DTS、PTS問題、解像度変化、サンプリングレート変化、フレーム落ち、重複フレームなどの形式関連問題を検出します。
ノンリファレンス型評価	動画ノンリファレンススコア	多次元の評価指標に基づき、動画品質を100点満点で採点します。
品質検査	画面品質	動画の画面品質を検査します。具体的な検査項目は以下の通りです。 JitterResults：画面のブレ。 BlurResults：画面のぼかし。 AbnormalLightingResults：低照度、露出オーバー。 CrashScreenResults：ブロックノイズ BlackWhiteEdgeResults：画面の黒枠、白枠、ブラックスクリーン、ホワイトアウト、単色スクリーンが発生する時間帯。 NoiseResults：画面のノイズ。 MosaicResults：画面のモザイク。 QRCodeResults：画面のQRコード。
品質検査		音声品質	動画の音声品質を検査します。具体的な検査項目は以下の通りです。 VoiceResults：音声不具合（無音、小音量、音割れを含む）。

カテゴリー	機能	説明
オンデマンド動画	動画品質評価	元の動画と比較動画を追加し、動画品質を評価します。 VMAF、PSNR、SSIM、VMAF-NEG評価方法をサポートしています。評価する時間帯またはフレーム数範囲をカスタマイズして選択できます。
オンデマンド動画		BD-Rate比較評価	MPSテンプレートを選択し、異なるテンプレートにおいて、異なるビットレートがトランスコード品質に与える影響を評価・比較します。 VMAF、PSNR、SSIM、VMAF-NEG評価方法をサポートしています。評価する時間帯またはフレーム数範囲をカスタマイズして選択できます。指定されたビットレートによる評価スコア比較、または指定されたCRF（動画品質スコア）によるビットレート比較をサポートします。
ライブストリーム	画面品質	ライブストリームのトランスコード前後の画面品質とビットレート変化をリアルタイムで比較・モニタリングします。

パラメータ	パラメータ説明
単一TSセグメントの長さ	単一TSセグメントの長さは5秒～30秒の範囲で設定できます。
セグメント録画時間	設定範囲は10～720分です。設定したセグメント録画時間を超えると、新しいファイルが生成されます。
録画再開の待機時間	設定範囲は60秒～1800秒です。録画再開の待機時間は録画ファイルの生成タイミングに直接影響します。

ターミナルSDKタイプ	機能説明
ターミナル動画エンコーディングSDK	Tencent TSCターミナル動画エンコーダーは、端末側の低スペック環境、低遅延、高画質というシナリオに焦点を当てて開発されたエンコーダーです。ハードウェアエンコーダーとの比較における強みは以下の通りです。安定性と信頼性に優れ、起動も速いです。同等の画質でビットレートを削減し、伝送の安定性を向上させ、下り配信の帯域幅を節約し、ストレージコストの削減を実現できます。同等のビットレートで画質を改善し、ユーザー体験を向上させます。 ROIエンコーディングによる顔領域の画質向上や、ネットワーク変動に応じた動的エンコード設定など、多様な業務ニーズに対応する豊富な機能を備えています。
ターミナル音声SDK	ターミナル音声SDKにはスタンダード版、プロ版、フラッグシップ版があり、以下の機能に対応しています。音響エコーキャンセレーション自動利得制御アダプティブノイズリダクション音楽モード対応エコーキャンセリングイコライザー AIによるスマートノイズリダクション音声エンコード AI Codec
端末強化SDK	クライアント強化SDKは、効率的な画像処理アルゴリズムとAIモデル推論能力に基づき、端末での動画超解像、画質強化、フレーム補間などの機能を実現します。スタンダード版、プロ版、フラッグシップ版を含み、以下の機能に対応しています。標準超解像／プロフェッショナル超解像／標準超解像＋強化パラメータ AIによる画質強化 AIによるフレーム補間

tencent cloud

音声・動画トランスコーディング

音声・動画強化

透かし

動画スクリーンショット

タイムポイントでのスクリーンショット

サンプリングスクリーンショット

スプライト

動画からGIFへの変換

メディアAI／メディアインテリジェンス

スマート字幕

技術的優位性

スマート消去

ハイライト集／名場面集

技術的優位性

スマート分割

大規模モデルによる動画要約

技術的優位性

インテリジェント横縦変換

技術的優位性

ROIスマート認識

スマート認識

インテリジェント分析

スマート審査

メディア品質検査

動画評価

ライブ配信の録画

ターミナルSDK