tencent cloud

腾讯云智能数智人

产品简介
产品概述
产品功能
产品优势
购买指南
价格指南
购买指引
使用代金券购买流程
退费说明
数智人形象介绍
形象类别介绍
基础形象库
形象和声音复刻指引
数智人平台操作指引
访问平台
形象生产与资产管理
数智人会话互动应用与管理
播报数智人视频生成与管理
运营管理与分析
服务端 API 接入
数智人 API 接入模式概述
数智人 aPaas 接口调用方式
2D真人小样本形象、声音定制 API 文档
视频生成服务 API 文档
交互数智人服务 API 文档
个人资产管理 API 文档
客户端 SDK 接入
整体介绍
3D 端渲染 SDK 接入
2D 端渲染 SDK 接入
数智人 SSML 标记语言规范
相关协议
隐私协议
DSA(Data Sharing Agreement)
常见问题

视频制作接口-照片免训练

PDF
聚焦模式
字号
最后更新时间: 2025-10-10 11:32:54

接口说明

无需训练,即可基于一个真人照片素材,通过输入文本或音频,生成人物说话口型与输入内容相匹配的新视频。
通过 音视频制作进度查询接口 最终返回成品视频。目前音视频资源只保留7天,请尽快下载。

调用协议

HTTPS + JSON
POST /v2/ivh/videomaker/broadcastservice/phototovideonotrain
Header Content-Type: application/json;charset=utf-8

请求参数

参数
类型
必须
说明
RefPhotoUrl
string
模板照片,格式支持 jpg、jpeg、png、bmp、webp。
1. 文件大小必须在10M内。
2. 图片单边分辨率要求在[192~4096]之间。
3. 图片宽高比在1:2到2:1范围内。
4. 需要有真人或类真人的卡通人脸,避免上传无人脸、人脸不完整、不清晰、偏转角度过大、嘴部被遮挡的图片。
DriverType
string
驱动类型,该字段必填。
1. Text:文本驱动,要求 InputSsml 字段必填。
2. OriginalVoice:原声音频驱动,要求 InputAudioUrl 字段必填。
InputAudioUrl
string
驱动数智人的音频 URL,当 DriverType 为 OriginalVoice 时,该字段必填。
音频格式要求:
1、时长在【2,60】秒。
2、支持格式:wav、mp3、wma、m4a、aac、ogg。
3、文件大小:不超过20M。
InputSsml
string
播报文本内容,支持 SSML 标签,支持的标签类型参照 数智人 SSML 标记语言规范,标签写法参照示例,内容不能换行,符号需转义。上限300字(文本驱动底层会转换为音频,如果时长超过60秒时任务会制作失败),不少于4个字(字数按 unicode 字符数计算)。DriverType 为空、或 Text 时,该字段必填。
SpeechParam
object
定义音频的详细参数。DriverType 为 Text 时,该字段必填。
SpeechParam.Speed
float
语速(1.0为正常语速,范围[0.5-1.5],值为0.5时播报语速最慢,值为1.5时播报语速最快, DriverType 为音频驱动类型时,语速控制不生效),DriverType 为 Text 时,该字段必填。
SpeechParam.TimbreKey
string
音色 Key,DriverType 为 Text 时,该字段必填。
SpeechParam.Volume
int
音量大小,范围[0,10],对应音量大小。默认为0,代表正常音量,值越大音量越高。
说明:
TimbreKey 在 male_1-20、female_1-23(即男声1-20、女声1-23)间的音色不支持音量调节。
SpeechParam.EmotionCategory
string
控制合成音频的情感,仅支持多情感音色使用,可选值参考个人资产管理 API 分页查询音色列表接口。
SpeechParam.EmotionIntensity
int
控制合成音频情感程度,取值范围为 [50,200],只有 EmotionCategory 不为空时生效。
SpeechParam.TimbreLanguage
string
音色语种,可选语种参考个人资产管理 API 分页查询音色列表 接口,多语种音色在合成时必须选择对应语种。
ConcurrencyType
string
视频制作任务使用的资源类型。
1. Exclusive:使用并发调用,不扣除小时包,需要购买并发,如果没有购买,任务提交失败。
2. Shared:调用会扣除小时包,需要购买小时包,如果没有购买,任务提交失败。
3. 不填:如果购买了并发或者并发和小时包都购买则为“Exclusive”,如果没有购买并发但购买了小时包则为“Shared”,如果都没有购买,任务提交失败。
CallbackUrl
string
当用户增加回调 URL 时,将把视频制作结果以固定格式发送 POST 请求到该 URL 地址,固定格式见 附录二: 回调请求体格式,需注意:
1. 限制 CallbackUrl 长度小于1000。
2. 只发送一次请求,无论是哪种问题导致的请求失败,都不会再进行发送。
VideoParam
object
定义输出视频的相关参数,不填时取各字段默认值。
VideoParam.EmotionLevel
int
输出视频的人物情绪强度:可选强度:1,2,3;默认值是2。越大音频控制强度越强,但可能导致不自然。

返回参数

参数
类型
必须
说明
TaskId
string
视频制作的任务 ID,携带 TaskId 访问 音视频制作进度查询接口,可获得制作进度和制作结果

请求示例

文本驱动
{
"Header": {},
"Payload": {
"RefPhotoUrl": "http://virtualhuman-cos-test-1251316161.cos.ap-nanjing.myqcloud.com/ref_photo.jpg",
"DriverType": "Text",
"InputSsml": "你好,我是虚拟<phoneme alphabet=\\"py\\" ph=\\"fu4\\">主</phoneme>播",
"SpeechParam": {
"TimbreKey": "female_1",
"Volume": 1,
"Speed": 1.0
}
}
}

音频驱动
{
"Header": {},
"Payload": {
"RefPhotoUrl": "http://virtualhuman-cos-test-1251316161.cos.ap-nanjing.myqcloud.com/ref_photo.jpg",
"DriverType": "OriginalVoice",
"InputAudioUrl": "http://virtualhuman-cos-test-1251316161.cos.ap-nanjing.myqcloud.com/audio.mp3"
}
}

返回示例

{
"Header": {
"Code": 0,
"DialogID": "",
"Message": "",
"RequestID": "fde854eaa981c7f2f7285d1c7eca335b",
"SessionID": "gzb7dec22117297528294581119"
},
"Payload": {
"TaskId": "81883d47c6154edf8e276531f09227b6"
}
}

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈