tencent cloud

腾讯云智能数智人

产品简介
产品概述
产品功能
产品优势
购买指南
价格指南
购买指引
使用代金券购买流程
退费说明
数智人形象介绍
形象类别介绍
基础形象库
形象和声音复刻指引
数智人平台操作指引
访问平台
形象生产与资产管理
数智人会话互动应用与管理
播报数智人视频生成与管理
运营管理与分析
服务端 API 接入
数智人 API 接入模式概述
数智人 aPaas 接口调用方式
2D真人小样本形象、声音定制 API 文档
视频生成服务 API 文档
交互数智人服务 API 文档
个人资产管理 API 文档
客户端 SDK 接入
整体介绍
3D 端渲染 SDK 接入
2D 端渲染 SDK 接入
数智人 SSML 标记语言规范
相关协议
隐私协议
DSA(Data Sharing Agreement)
常见问题

音频制作接口

PDF
聚焦模式
字号
最后更新时间: 2024-07-18 18:23:53

接口说明

对输入文本进行试听,需要试听的音色可以通过接口查询 VirtualmanKey 支持的音色查询,部分形象不支持更换音色。

调用协议

HTTPS + JSON
POST     /v2/ivh/videomaker/broadcastservice/tts
Header   Content-Type: application/json;charset=utf-8

请求参数

参数
类型
必须
说明
TimbreKey
string
音色key,当VirtualmanKey为空时TimbreKey不能为空
VirtualmanKey
string
定义播报的角色、服装、姿态、分辨率等信息,参数为枚举值,当TimbreKey为空时VirtualmanKey不能为空,默认选取匹配该形象的第一个音色制作音频。
InputSsml
string
需要播报的文本内容,支持ssml标签,上限2万字(字数按unicode字符数计算)
Speed
float
语速(1.0为正常语速,范围[0.5-1.5],值为0.5时播报语速最慢,值为1.5时播报语速最快)
AudioStorageS3Url
string
可传入含鉴权s3协议存储url,音频成品会上传至该url
SampleRate
int
采样率,支持24000(24k)和16000(16k),默认24000(24k)
Codec
string
音频格式,支持mp3和wav,默认mp3
SentenceMaxWords
int
分句的字数上限,字数范围 [0,999],传0或不传时默认值30
SentenceDisplayPunctuation
string
分句里需要展示的标点符号,其中,传入特殊字符"0"表示标点符号都不展示,特殊符号"1"(默认取值)表示标点符号全都展示,也可自定义传入需要展示的标点符号
SentenceSplitPunctuation
string
需要断句的标点符号,默认取值。;?!………!?
Volume
int
音量大小,范围[0,10],对应音量大小。默认为0,代表正常音量,值越大音量越高。
EmotionCategory
string
控制合成音频的情感,仅支持多情感音色使用,可选值参考个人资产管理API 4.5音色列表接口。
EmotionIntensity
int
控制合成音频情感程度,取值范围为 [50,200],只有 EmotionCategory 不为空时生效。

返回参数

参数
类型
必须
说明
TaskId
string
音频制作的任务 ID,携带 TaskId 访问<音视频制作进度查询接口>,可获得该视频的制作进度和下载地址。

请求示例

{
"Header": {},
"Payload": {
"VirtualmanKey": "123",
"InputSsml": "你好虚拟主播",
"Speed": 1
}
}

返回示例

{
"Header": {
"Code": 0,
"DialogID": "",
"Message": "",
"RequestID": "123"
},
"Payload": {
"TaskId": "123"
}
}
 
 
 

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈