Automatic Speech Recognition

tencent cloud

개요

Automatic Speech Recognition(ASR)은 가성비 높은 음성 인식 서비스를 제공합니다. WeChat, Honor of Kings, Tencent Video 등 많은 Tencent 서비스에서 널리 사용되어 왔으며, 녹음 품질 검사, 실시간 회의 문자 변환, 음성 입력기 등 다양한 사용 사례를 구현했습니다.

ASR 문서

특징

낮은 가격

Tencent Cloud ASR은 업계에서 경쟁력 있는 가격 시스템을 제공합니다.

다양한 언어 지원

ASR은 현재 중국어, 영어 음성 인식을 지원하며 앞으로 더 많은 언어를 지원할 예정입니다.

뛰어난 효과

ASR 단어 인식 정확도는 업계 최고 수준인 97%로, WeChat 및 Honor of Kings의 음성-텍스트 변환 기능과 동일한 서비스 세트가 적용되었습니다.

강력한 알고리즘

ASR은 혁신적인 네트워크 구조 TLC-BLSTM을 기반으로 ATTENTION 메커니즘을 활용하여 음성 신호를 효과적으로 모델링하고, Teacher-Student 접근 방식을 통해 시스템 견고성을 개선하여, 일반 및 수직 분야의 다양한 시나리오에서 업계 최고의 인식 정확도와 효율성을 제공합니다.

셀프 서비스 정확도 향상

ASR을 사용하면 수직 필드에 단어 또는 문장 목록을 업로드하여 언어 모델을 자동으로 최적화할 수 있습니다. 자체 적응 학습 플랫폼을 기반으로 알고리즘에 대해 전혀 모르더라도 손쉽게 맞춤형 모델을 구현하고 인식 정확도를 높일 수 있습니다.

다양한 시나리오 지원

ASR은 WeChat, Tencent Video, Honor of Kings 등 Tencent 트래픽이 높은 제품에서 완벽하게 검증되었습니다. 또한, 방대한 데이터를 기반으로 인터넷, 금융, 교육 분야의 다양한 시나리오에 최적화되어 있으며, 많은 산업 분야에서 축적된 모범 사례를 보유하고 있습니다.

시나리오

콜 센터

쇼트 비디오 자막

비디오 이해

기존의 콜 센터 서비스 품질 검사는 노동력과 비용 문제로 인해 무작위 현장 점검으로 진행되어 고객 서비스 담당자의 성과를 평가하기 어려웠습니다. ASR은 통화 음성을 텍스트로 변환한 다음 텍스트를 실시간 분석하여 규정에 어긋난 통화를 식별할 수 있습니다. 이는 콜 센터의 품질 관리를 대폭 강화하고, 인력으로 수행할 수 없는 대량의 통화 품질 검사를 완료하여 콜 센터 직원의 서비스 품질을 궁극적으로 향상시킵니다.

Vlog 촬영 시나리오에서 사용자는 일반적으로 동영상을 촬영하는 동시에 대화하기 때문에, 2차 편집을 거쳐 자막을 수동 추가해야 합니다. ASR의 실시간 음성 인식 기능은 사용자가 말하는 동시에 바로 자막을 생성하여, 후처리 비용을 크게 절감하고 동영상 촬영 완료 즉시 게시할 수 있도록 합니다.

라이브 스트리밍 및 오디오 공유 플랫폼에는 품질 검사, 태깅 및 추천을 위해 이해를 필요로 하는 수많은 오디오/비디오가 있으며, 이는 인력으로 구현하기 어렵습니다. ASR의 실시간 음성 인식 기능은 오디오/비디오 문자 변환 모델을 기반으로 비디오의 오디오(스트림)을 문자로 변환할 수 있습니다. 다양한 입력 소스의 다양한 딜레이 요구 사항을 충족하고, 대량의 오디오/비디오를 빠르게 이해할 수 있도록 하여, 인건비를 크게 줄이고 품질 검사, 정확한 태깅 및 추천을 신속하게 구현합니다.

가격

실시간 음성 인식 및 서비스 총 호출 횟수가 일정 구간에 도달하면, 해당 구간의 단가를 기준으로 청구됩니다. 높은 구간에 속할수록 단가가 낮아집니다. 당일 사용량에 대한 청구서는 익일에 생성되어 정산됩니다. 자세한 가격 정보는 과금 개요를 참고하세요.