tencent cloud

腾讯云智能数智人

产品简介
产品概述
产品功能
产品优势
购买指南
价格指南
购买指引
使用代金券购买流程
退费说明
数智人形象介绍
形象类别介绍
基础形象库
形象和声音复刻指引
数智人平台操作指引
访问平台
形象生产与资产管理
数智人会话互动应用与管理
播报数智人视频生成与管理
运营管理与分析
服务端 API 接入
数智人 API 接入模式概述
数智人 aPaas 接口调用方式
2D真人小样本形象、声音定制 API 文档
视频生成服务 API 文档
交互数智人服务 API 文档
个人资产管理 API 文档
客户端 SDK 接入
整体介绍
3D 端渲染 SDK 接入
2D 端渲染 SDK 接入
数智人 SSML 标记语言规范
相关协议
隐私协议
DSA(Data Sharing Agreement)
常见问题

声音驱动指令

PDF
聚焦模式
字号
最后更新时间: 2024-07-19 10:12:55
创建长链接通道后,可以通过websocket长连接发送音频驱动数智人。

请求参数

参数名称
类型
必选
描述
ReqId
String
单次驱动的唯一标识。每一段音频指定一个 uuid 值。
SessionId
String
会话唯一标识。
Command
String
SEND_AUDIO,发送音频。
Data
Data
数据对象

Data

名称
类型
必选
描述
Audio
string
音频原始数据的 byte 数组,经 Base64 编码后的字符串。只支持:格式-PCM,采样率-16kHz,采样位深-16bits,声道-单声道
Seq
int
音频片包序号,序号必须从1开始
IsFinal
bool
默认值 false
注意:
1. 如果是麦克风实时收音发送,每录制160ms(5120B)的数据即可发出,中间不需要间隔等待;如果是读取离线音频文件发送,片包大小为160ms(5120B),片包发送间隔为120ms。
2. 最后一个片包大小按实际发送(需小于160ms)。
3. 当数据包发送完毕后,必须再发送一个IsFinal=true的空数据包(Audio字段填空串)结束当次音频驱动使数字人回到静默状态。
4. 发送音频实时率要介于[0.75,1],小于0.75会触发限速,大于1会导致画面卡顿。比如160ms音频片包大小,发送间隔不能低于120ms,不能高于160ms。

请求示例

{
"Header": {},
"Payload": {
"ReqId": "d7aa08da33dd4a662ad5be508c5b77cf",
"SessionId": "m123adfafvbadsafd",
"Command": "SEND_AUDIO",
"Data": {
"Audio": "声音二进制数据编码Base64后的值",
"Seq": 0,
"IsFinal": false
}
}
}


帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈