产品简介
购买指南
数智人形象介绍
- 形象类别介绍
- 基础形象库
- 形象和声音复刻指引
数智人平台操作指引
- 访问平台
- 形象生产与资产管理
- 数智人会话互动应用与管理
- 播报数智人视频生成与管理
- 运营管理与分析
播报服务
- 视频生成服务 API 文档
交互服务
- API（云渲染、端渲染）
- SDK（端渲染）
- 交互数智人实践教程（云渲染）
定制服务
- 2D真人小样本形象、声音定制 API 文档
- 2D 端渲染形象定制及下载、使用流程
其他配套
- 数智人 aPaas 接口调用方式
- 个人资产管理 API 文档
数智人 SSML 标记语言规范
相关协议
- 隐私协议
- DSA（Data Sharing Agreement）
常见问题

声音驱动指令

Download

聚焦模式

字号

最后更新时间： 2024-07-19 10:12:55

﻿创建长链接通道后，可以通过websocket长连接发送音频驱动数智人。
请求参数
参数名称
类型
必选
描述
ReqId
String
是
单次驱动的唯一标识。每一段音频指定一个 uuid 值。
SessionId
String
是
会话唯一标识。
Command
String
是
SEND_AUDIO，发送音频。
Data
﻿Data﻿
是
数据对象
﻿Data
﻿
名称
类型
必选
描述
Audio
string
是
音频原始数据的 byte 数组，经 Base64 编码后的字符串。只支持：格式-PCM，采样率-16kHz，采样位深-16bits，声道-单声道
Seq
int
是
音频片包序号，序号必须从1开始
IsFinal
bool
否
默认值 false
注意：
1. 如果是麦克风实时收音发送，每录制160ms（5120B）的数据即可发出，中间不需要间隔等待；如果是读取离线音频文件发送，片包大小为160ms（5120B），片包发送间隔为120ms。
2. 最后一个片包大小按实际发送（需小于160ms）。
3. 当数据包发送完毕后，必须再发送一个IsFinal=true的空数据包（Audio字段填空串）结束当次音频驱动使数字人回到静默状态。
4. 发送音频实时率要介于[0.75,1]，小于0.75会触发限速，大于1会导致画面卡顿。比如160ms音频片包大小，发送间隔不能低于120ms，不能高于160ms。
请求示例
{
    "Header": {},
    "Payload": {
        "ReqId": "d7aa08da33dd4a662ad5be508c5b77cf",
        "SessionId": "m123adfafvbadsafd",
        "Command": "SEND_AUDIO",
        "Data": {
            "Audio": "声音二进制数据编码Base64后的值",
            "Seq": 0,
            "IsFinal": false
        }
    }
}
﻿

帮助和支持

本页内容是否解决了您的问题？

您也可以联系销售或提交工单以寻求帮助。

填写满意度调查问卷，共创更好文档体验。

文档反馈

tencent cloud

腾讯云智能数智人

声音驱动指令

请求参数

请求示例

帮助和支持

参数名称	类型	必选	描述
ReqId	String	是	单次驱动的唯一标识。每一段音频指定一个 uuid 值。
SessionId	String	是	会话唯一标识。
Command	String	是	SEND_AUDIO，发送音频。
Data	Data	是	数据对象

名称	类型	必选	描述
Audio	string	是	音频原始数据的 byte 数组，经 Base64 编码后的字符串。只支持：格式-PCM，采样率-16kHz，采样位深-16bits，声道-单声道
Seq	int	是	音频片包序号，序号必须从1开始
IsFinal	bool	否	默认值 false