tencent cloud

Automatic Speech Recognition

業界にコストパフォーマンスが非常に優れた音声認識サービスを提供し、非常に高い認識精度を様々なシーンに使用します

概要

Tencent Cloud Automatic Speech Recognition(ASR)は、企業にコストパフォーマンスが非常に優れた音声認識サービスです。WeChat、王者栄耀、Tencent Videoなどの大量の内部ビジネスに使用しており、外部では録音の品質検査、会議でのリアルタイム転写、音声インプットメソッドなど様々なシーンで使用されています。

特徴
価格が低い

後払いパッケージは音声認識を1時間利用しても0.2ドルかかりません。最大限利用すると顧客コストが下がります。

言語が多い

すでに中国語、英語に対応しており、今後、他の言語や言語の識別能力を追加していきます。

効果が良好

97%の精度は業界をリードするレベルであり、WeChat、王者栄耀の音声のテキスト変換に使用しているサービスと同じ効果があります。

アルゴリズムが強力

革新的なネットワーク構造TLC-BLSTMに基づいて、ATTENTION機構を利用して効果的に音声信号をモデリングし、Teacher-Student方式でシステムのロバストネスを向上させ、汎用分野と垂直分野でのシーンに対して業界をリードする認識精度および効率を有します。 

精度のセルフ向上

垂直分野に対して、用語表またはセンテンスをアップロードするとすぐに言語モデリングの自動最適化を完了できます。セルフトレーニングプラットフォームのおかげで、アルゴリズムが分からなくても気軽にモデルのカスタマイズを実現でき、さらに認識精度を向上させることができます。

豊富なシーンをサポート

内部のWeChat、Tencent Video、王者栄耀などのトラフィックが大きい製品での充分な検証によって、インターネット、金融、教育などの分野で大量のデータに基づいてシナリオ分類の最適化を実現し、様々な業界のベストプラクティスを蓄積しました。

ユースケース

従来の音声電話品質検査は人の業務効率と人件費の制限を大きく受けており、ランダム検査のみで全件検査はできず、カスタマーサービスの実際の業務品質を評価することが困難でした。音声認識では電話音声を認識してテキストにしてからそのままリアルタイムなテキスト分析を行い、規範に合わないサービス通話記録を識別します。そのため、コールセンターの業務品質管理能力が大幅に向上し、人力では達成できない超大規模な電話録音品質検査業務が可能になり、コールセンタースタッフのサービス品質が向上します。

Vlogの撮影シーンにおいて、ユーザーはビデオ撮影しながら話し、撮影完了後に編集で字幕を手動入力してからビデオを公開しています。リアルタイム音声認識により、ユーザーが撮影しながら話した音声内容のビデオへの直接表示を実現しました。ユーザーの続きの作業コストを大幅に削減し、撮影後の即時公開が可能になります。

ライブストリーミング、オーディオシェアなどのプラットフォームにおいて、品質検査チェックまたはタグのおすすめを行うのに用いる大量のオーディオビデオを理解する必要があり、人力での実現は非常に困難です。リアルタイム音声認識はビデオ内のオーディオ(ストリーム)をオーディオビデオ専用モデルによって転写でき、様々な入力、それぞれのディレイのニーズを満たすことができます。プラットフォームの大量のオーディオビデオの迅速な理解をサポートして人力コストを大幅に削減し、品質検査チェックまたは正確なおすすめを迅速に実現します。

料金

リアルタイム音声認識のコール合計量があるフェーズになると、すべてのコール量は該当フェーズの単価に応じて課金されます。フェーズが高いほど単価は低く、前日の使用量に対して毎日請求書を出力して引き落とします。更なる定価の説明については、課金概要をご参照ください。