一、音声・動画エンハンスメント機能の概要
概要
音声・動画エンハンスメント機能は、MPSの業界をリードするAI音声・動画処理モデルと豊富なビジネスデータ蓄積を基盤に、プロフェッショナルレベルの音声・動画エンハンスメントソリューションを提供します。この機能は、分散型リアルタイム画質改善をサポートし、アーティファクト除去、ノイズリダクション、色彩補正、ディテール向上、顔補正、SDR→HDR変換、大規模モデルによる画質改善などの機能を含んでいます。音声・動画の品質を大幅に向上させ、OTT、Eコマース、スポーツ中継などのシナリオで広く利用されており、QoEとQoSの両側面を向上させ、顕著なビジネス価値を創出します。
技術の強み
あらゆるシナリオに対応するAIエンハンスメントアルゴリズム。ゲーム、UGCコンテンツ、PGCの高解像度映画・ドラマ、オンライン教育、ライブ配信、Eコマース、旧作映像ソースなど、様々なシナリオに合わせて業界をリードするAIエンハンスメントアルゴリズムをカスタマイズし、オーディオとビデオの品質を全面的に向上させます。
包括的なオーディオエンハンスメント。音声ノイズリダクション、音源分離、音質向上、ラウドネスノーマライゼーションをサポートし、音声の明瞭度と品質を大幅に向上させ、あらゆるシナリオにおける高品質なオーディオのニーズに応えます。
注意:
体験ラボを開くと、音声・動画エンハンスメント機能の効果をすぐに体験できます。 音声・動画エンハンスメント機能の利用方法
(1)ご利用前の注意事項
音声・動画エンハンスメント機能を利用する前に、以下の準備を完了させていただく必要があります。Tencent Cloudアカウントの登録/ログイン、COSストレージサービスの有効化と権限付与。具体的な操作ガイドについてはクイックスタートをご参照ください。アカウントの権限付与に関する問題はアカウントの権限付与ドキュメントをご参照ください。 (2)音声・動画エンハンスメントタスクの作成
MPSでは、コンソールでのクイックタスク作成、APIによるタスク開始、タスクの自動実行の3つのタスク開始方法を提供しています。以下のフローチャートは、各方法の共通の操作フローを示しています。音声・動画エンハンスメントタスクの具体的な設定方法については、下記の音声・動画エンハンスメントタスクの作成の詳細説明をご参照ください。 二、音声・動画エンハンスメントタスクの作成
方法1、コンソールでクイックにタスクを作成
1. MPSコンソールに移動し、タスク作成 > オンデマンド処理タスクをクイック作成を順にクリックします。 2. まず、入力ビデオファイルを指定します。COSまたはAWS S3のバケットから音声・動画ファイルを選択するか、ファイルのダウンロードURLを指定できます。
3. 次に、「入力ファイルの処理」ステップで、音声・動画エンハンスメントノードを追加します。
4. ポップアップした設定ドロワーで、必要な音声・動画エンハンスメントテンプレートを選択します。
注意:
コンソールの音声・動画エンハンスメントテンプレートでは、現在、トランスコードタイプ、ビットレート、GOPなどの詳細なトランスコードパラメータの設定は公開されていません(デフォルトでは標準トランスコードが使用され、ビットレートやGOPなどはデフォルト値が適用されます。通常はソースに追従または自動)。そのため、トランスコード関連のパラメータを調整する必要がある場合は、APIを使用してエンハンスメントテンプレートを新規作成することを推奨します。ガイドはこちら。 5. 最後に、出力ビデオの保存パスを指定した後、作成をクリックしてタスクを開始します。
方法2. APIによるタスク開始
注意:
コンソールの音声・動画エンハンスメントテンプレートでは、現在、トランスコードタイプ、ビットレート、GOPなどの詳細なトランスコードパラメータの設定は公開されていません(デフォルトでは標準トランスコードが使用され、ビットレートやGOPなどはデフォルト値が適用されます。通常はソースに追従または自動)。そのため、トランスコード関連のパラメータを調整する必要がある場合は、APIを使用してエンハンスメントテンプレートを新規作成することを推奨します。ガイドはこちら。 {
"InputInfo": {
"Type": "URL ",
"UrlInputInfo": {
"Url": "https://test-1234567.cos.ap-guangzhou.myqcloud.com/video/test.mp4"// 処理したいビデオのURLに置き換えてください
}
},
"OutputStorage": {
"Type": "cos",
"CosOutputStorage": {
"Bucket": "test-1234567",
"Region": "ap-guangzhou"
}
},
"MediaProcessTask": {
"TranscodeTaskSet": [
{
"Definition": 100910 //100910はプリセットの「映像エンハンスメント-総合画質改善、色彩補正、アーティファクト除去」テンプレートIDです。ご自身のカスタム音声・動画エンハンスメントテンプレートIDに置き換え可能です
}
]
}
}
{
"InputInfo": {
"Type": "URL ",
"UrlInputInfo": {
"Url": "https://test-1234567.cos.ap-guangzhou.myqcloud.com/video/test.mp4"// 処理したいビデオのURLに置き換えてください
}
},
"OutputStorage": {
"Type": "cos",
"CosOutputStorage": {
"Bucket": "test-1234567",
"Region": "ap-guangzhou"
}
},
"OutputDir": "/output/",
"ScheduleId": 12345 //カスタムワークフローIDに置き換えてください。12345は単なる例であり、実際の意味はありません
}
API Explorerによるクイック検証
1.2 次に、MPSのAPI Explorerオンラインデバッグページに移動し、左側のAPIリストからメディア処理インターフェースを選択します。下の図を参考に、入力パス、出力パス、テンプレートID、ワークフローIDなどのパラメータを記入すると、APIをオンラインで呼び出すことができます。 方法3. COSへのファイルアップロード後にMPSタスクを自動実行
COSバケットにビデオファイルをアップロードした際に、プリセットのパラメータに従って自動的に音声・動画エンハンスメント処理を実行させたい場合は、以下の手順で設定できます。
1. タスク作成時にこのワークフローを保存をクリックし、ポップアップウィンドウでトリガーとなるBucketやディレクトリなどのパラメータを設定します。
2. 次にオンデマンドワークフローリストに移動し、作成したワークフローを見つけ、起動のスイッチをオンにします。以降、トリガーディレクトリに新しいビデオファイルが追加されると、このワークフローでプリセットされたフローとパラメータに従って自動的にタスクが開始され、処理後のビデオファイルが設定された出力パスに保存されます。
注意:
ワークフローを有効にした後、設定が反映されるまで3~5分かかります。三、タスク結果の照会
1.タスクコールバック
ProcessMediaからメディア処理タスクを開始する際、TaskNotifyConfigパラメータでコールバック情報を設定できます。タスク処理が完了すると、設定されたコールバック情報を通じてタスク結果が通知されます。ParseNotificationからイベント通知結果を解析できます。 2.タスク結果の照会
DescribeTaskDetailインターフェースを呼び出し、タスクID(例:24000022-ScheduleTask-774f101xxxxxxx1tt110253)を入力してタスク結果を照会します。 (2)コンソールでタスク結果を照会する
2. サブタスクのステータスが「成功」になったら、COS Bucket > 出力Bucketに移動し、出力場所を見つけると、音声・動画エンハンスメントの出力ファイルをプレビュー、ダウンロードなどの操作ができます。
四、音声・動画エンハンスメント関連の拡張パラメータ
一部の最新モデルは現在、設定が公開されていません。ご利用を希望される場合は、弊社にご連絡いただき、バックエンドでの設定をご依頼ください。以下の機能が含まれます。
|
総合画質改善(最適化版) | 総合画質改善技術は、AIアルゴリズムでビデオのコンテンツを分析・最適化し、特に顔の鮮明度、ディテール、色彩表現の向上に注力します。最初から最後までより高い表示品質と精細なディテールを提供し、顔の特徴をよりクリアに、ディテールをより豊かにします。 |
色彩補正(最適化版) | 色彩補正機能は、ビデオの色彩表現を改善し、よりリアルな色に近づけ、かつ人間の視覚特性に合わせてある程度強調することを目的としています。彩度、コントラスト、輝度を調整し、撮影機材や保存時の問題による色のにじみや歪みを修復することで、ビデオ全体の視覚効果を向上させます。色彩補正機能はビデオの色彩品質を大幅に高め、映像をより鮮やかで魅力的にします。 |
アーティファクト除去(最適化版) | アーティファクト除去機能は、主にビデオのトランスコードまたは複数回のトランスコード過程で発生する、ブロックノイズやリンギングなどの歪みを修復するために使用されます。これらの歪みは、通常、画面の乱れ、ぼやけ、不自然な色合いとして現れ、視覚効果に深刻な影響を与えます。アーティファクト除去技術は、ビデオのエンコード情報を分析し、これらの偽像をインテリジェントに除去することで、画面の鮮明さと自然さを回復させます。音声・動画エンハンスメントサービスのアーティファクト除去機能は、エンコードによって生じた歪みを効果的に修復し、ビデオ全体の品質を向上させます。 |
生成AI大規模モデルによる画質修復 | 大規模モデルは、深層学習CNNをベースにしたエンハンスメントモデルであり、ほとんどのビジネスシナリオのビデオをカバーできます。特に、劣化の激しい古いビデオの修復において優れた効果を発揮します。拡散モデルを使用して修復を行うことで、学習データを実際の古い映像の状況に近づけ、モデルが小さすぎることによる学習困難やディテールの修復不足を回避します。同時に、エンハンスメントモデルを既存の強力なText-to-ImageおよびText-to-Videoの基盤モデル上に構築し、それらが持つ様々な意味情報やディテールの事前情報を十分に活用してビデオ画質の修復を行うことで、従来の手法をはるかに超える効果を実現します。 |
五、よくあるご質問
音声・動画エンハンスメントテンプレートはどのように作成しますか?
システムにはいくつかのプリセットエンハンスメントテンプレートが用意されていますが、ビジネス要件に応じて、カスタムの音声・動画エンハンスメントテンプレートを作成し、異なる応用シナリオに対して異なる処理パラメータをプリセットしておくことで、後の再利用が容易になります。テンプレートはコンソールおよびAPIで作成できます。トランスコード関連のパラメータ設定が含まれる場合は、APIを使用してテンプレートを新規作成することを推奨します。ガイドはこちら。 エンハンスメント機能で、ビットレートやGOPなどのエンコード関連パラメータは設定できますか?
現在、コンソールでエンハンスメントテンプレートを作成する際は、エンコーディング規格、解像度、フレームレートの変更のみが可能です。ビットレートやGOPなど、より多くのトランスコード関連パラメータを設定する必要がある場合は、APIを使用してエンハンスメントテンプレートを作成してください。ガイドはこちら。 最適なエンハンスメント効果を得るにはどうすればよいですか?
音声・動画エンハンスメントには、アーティファクト除去、ノイズリダクション、色彩補正、ディテール向上、顔補正、SDR→HDR変換などの機能が含まれます。ご自身での組み合わせテストで期待する効果が得られない場合は、直接弊社にご連絡いただければ、詳細な設定提案や高度なパラメータチューニングをサポートいたします。
エンハンスメントの課金基準は何ですか?
音声・動画エンハンスメントはトランスコードをベースに実装されているため、エンハンスメントタスクを1回実行すると、音声・動画エンハンスメント料金と、音声・動画トランスコード(標準またはTSCトランスコード)料金の2種類が発生します。詳細は音声・動画エンハンスメントの課金ドキュメントをご参照ください。