tencent cloud

腾讯云智能数智人

产品简介
产品概述
产品功能
产品优势
购买指南
价格指南
购买指引
使用代金券购买流程
退费说明
数智人形象介绍
形象类别介绍
基础形象库
形象和声音复刻指引
数智人平台操作指引
访问平台
形象生产与资产管理
数智人会话互动应用与管理
播报数智人视频生成与管理
运营管理与分析
服务端 API 接入
数智人 API 接入模式概述
数智人 aPaas 接口调用方式
2D真人小样本形象、声音定制 API 文档
视频生成服务 API 文档
交互数智人服务 API 文档
个人资产管理 API 文档
客户端 SDK 接入
整体介绍
3D 端渲染 SDK 接入
2D 端渲染 SDK 接入
数智人 SSML 标记语言规范
相关协议
隐私协议
DSA(Data Sharing Agreement)
常见问题

价格指南

PDF
聚焦模式
字号
最后更新时间: 2025-11-05 10:02:04

基本结构

腾讯云智能数智人售卖三类产品:形象采购、播报服务以及交互服务。形象采购为必选项,可以搭配数智人的播报服务以及交互服务一同使用。需注意,单独购买形象采购、播报服务以及交互服务任一产品均无法直接应用于最终的应用场景,需要组合购买。
2D/3D形象
形象租赁
自定义专属的数智人形象,3D需额外购买云端驱动引擎,2D不需要;与租赁二选一购买。
定制形象续期
定制形象默认有1年有效期,该服务专用于定制形象到期后购买使用;租赁形象到期后,直接重新购买即可,不需要购买该续期服务。
应用场景
会话互动
云渲染
通过云端服务来渲染生成形象后,将图像实时推送到终端展示,需购买“云渲染会话驱动并发”;支持 API 和 SDK,与端渲染互斥。
端渲染

在终端本地直接渲染生成形象展示,云端只负责推送会话内容,需购买“端渲染会话驱动次数包”或终端授权 license;支持 API 和 SDK,与云渲染互斥。

音视频播报
生成视频(含音频)
借助指定虚拟形象和音色,按照预设文本生成视频,需购买“视频播报合成小时包”(含音频合成能力)。
仅生成音频
借助指定音色,按照预设文本生成音频,需购买“音频播报合成小时包”(仅生成音频时需购买该小时包)。
音视频播报并发
通过增加并发路数来提高视频或音频的生成效率,对生成结果不影响,可选购买。
声音定制
声音复刻
通过提供的声音素材,训练生成指定的音色。在应用场景中配合使用。
定制声音续期
复刻声音默认1年有效期,该服务专用于复刻声音到期后购买使用。

形象介绍

形象类别介绍
形象类型
定义
使用场景
示例
2D精品
通过在专业影棚中录制动作素材,经过两周左右的训练可生成应用于播报、交互场景的数智人。精品形象可在文中随机插入指定动作,动作呈现多样性。
适用于金融、传媒类对数智人形象、动作有要求的客户。



2D小样本-通用口型
通过一段真人视频素材进行训练数智人,数智人的外貌与真人一致,口型将采用大模型生成的通用唇齿,训练视频素材要求更低,具体参见形象录制指引-通用口型
适用于对数智人口型无要求、无良好拍摄条件的客户。



2D小样本-专属口型
通过一段真人视频素材进行训练数智人,数智人的外貌与真人一致,口型将采用真人专属唇齿,训练视频素材需无其他人声以及明显环境声,具体参见形象录制指引-专属口型
适用于对数智人形象复刻有要求、有较好拍摄条件的客户。
2D小样本-高精版本
通过一段4K的真人视频素材进行训练数智人,素材采集要求及最终唇齿效果同2D小样本(专属口型),最终数智人的清晰度提升为4K。具体参见形象录制指引-高精版本
适用于大型会议、面对面对话、产品发布会、大屏场景。
2D小样本-照片数智人
通过一张照片即可训练数智人;该版本主打低价快速,从素材提交后,一般情况下在10分钟后即可使用。
适用于泛互、娱乐场景。



3D卡通
根据客户的需求设定数智人五官特征、发型、服饰、配饰等完成原画,待客户评审后敲定最终形象后进行模型制作。后经过骨骼绑定、渲染、UE调优等阶段后可输出覆盖交互、播报场景的数智人。
适用于已有2D吉祥物形象,期望升级为3D形象为用户提供服务的场景。



3D半写实
根据客户的需求设定数智人五官特征、发型、服饰、配饰等完成原画,待客户评审后敲定最终形象后进行模型制作。后经过骨骼绑定、渲染、UE调优等阶段后可输出覆盖交互、播报场景的数智人。
适用于需要一定的写实感但精度要求不高的场景,如资讯播报、手机端智能客服场景。



3D写实
根据客户的需求设定数智人五官特征、发型、服饰、配饰等完成原画,待客户评审后敲定最终形象后进行模型制作。后经过骨骼绑定、渲染、UE调优等阶段后可输出覆盖交互、播报场景的数智人。
适用于需要高写实感和高精度展现的场景,如品牌宣传、大屏交互场景。




形象对比


2D小样本-通用口型
2D小样本-专属口型
2D小样本-高精版本
2D小样本-照片数字人
录制要求
录制至少60s的视频,对于视频拍摄声音无要求
录制至少180s的视频,录制环境需要保持安静,仅可录制拍摄主体的声音
录制标准同专属口型,视频分辨率需是4K
仅需要提供一张人物清晰正面照片
交付周期
1天内出demo供客户效果确认,客户点击确认后即可使用
2天内出demo供客户确认效果,客户点击确认后即可使用
3天内出demo供客户确认效果,客户点击确认后即可使用
10分钟内即可使用
成品效果
通用版本使用的为大数据模型生成的唇齿
专属版本为录制本人的口型,面部清晰度更优
在专属口型的效果基础上,输出4K分辨率,更加高清
照片数智人使用的为大数据模型生成的唇齿,身体姿态无法轻微晃动
通用口型 vs 专属口型



通用口型 vs 照片数字人



专属口型 vs 高精版本




价格说明

形象采购

形象采购是指数智人的形象购买,具体可以分为形象租赁和形象定制两种方式。此外还可以支持对声音的复刻。
形象租赁:通过租赁公共基础形象库内的形象。租赁期间,为无独占租赁,仅拥有该形象的使用权,该形象的所有权依旧归腾讯方所有,且腾讯方有权将该形象进行二次租赁。 适合对形象专属要求不高、业务处在初期阶段的客户。
形象定制:通过录制训练或者建模的方式对数智人形象进行定制,适用于对自有形象有要求、对形象需要拥有所有权的客户。
声音复刻:通过对语音数据的采集训练,复刻特定的声音。

1. 形象租赁
支持租赁公有形象库的形象,具体形象请参见 2D小样本(通用口型)基础形象库
形象类型
功能描述
价格
2D 小样本通用口型
在 2D 小样本通用口型形象库中选取形象租赁,租赁期间为无独占租赁,支持文本驱动或原声驱动,基础动作按照实际形象情况为准。含默认音色。
25美元/个/月
2D 小样本专属口型
在 2D 小样本专属口型形象库中选取形象租赁,租赁期间为无独占租赁,支持文本驱动或原声驱动,基础动作按照实际形象情况为准。含默认音色。
60美元/个/月
3D
在 3D 形象库中选取形象租赁,租赁期间为无独占租赁,支持文本驱动或原声驱动,基础动作按照实际形象情况为准。含默认音色。
5358美元/个/月
2. 形象定制
需要注意:形象定制配额自购买后即生效,有效期为一年。
形象类型
功能描述
价格
2D小样本通用口型
限云服务。支持文本及原声驱动。
通过提供1段1分钟视频素材即可定制数字人,含1个默认音色。
服装造型、姿态、动作均以视频素材数据为准。
素材为绿幕纯色背景的,方可支持背景更换功能。
200 美元/个

2D小样本专属口型
支持文本驱动或原声驱动。
通过提供1段3分钟视频素材即可定制播报数字人,含1个默认音色。
服装造型、姿态、动作均以视频素材数据为准。
素材为绿幕纯色背景,方可支持背景更换功能。
1,000 美元/个
2D小样本照片
支持文本驱动或原声驱动。
通过一张照片即可训练数智人,成本低,定制速度快速。
2.5美元/个
3D
不限云服务、私有化使用。
支持文本/声音驱动/单目摄像头视频驱动,基于默认版3D人像(参考哟哟形象身体模板),针对脸型、发型、服装、动作按指定的要求进行客制化,成套模型包含脸型*1、发型*1、服装*1,动作库8个。
如需额外的发型、服装、动作、表情定制,需增项加购。
3D写实配套资产精度为S级别。
请联系我们,获取报价
3D云端驱动引擎
适用于客户已有并且满足驱动规范的 3D 形象资产,支持文本驱动或原声驱动。
137,500美元/个
3. 声音复刻
需要注意:声音复刻配额自购买后即生效,有效期为一年。
类别
功能描述
价格
声音复刻-极速版
输入秒级别的声音数据,10分钟内即可极速拥有专属AI定制音色;主要用于搭配照片数智人,主打及时可用。可参见 声音复刻录制指引-极速版。生成的照片形象永久有效。
2.5美元/个
声音复刻-极速版(小语种)
功能同上,支持多种语种,清单详见:附录4-语种列表
50美元/个
4. 定制形象或声音的续期
可用于延长定制形象或复刻声音的生效时间。
形象类型
功能描述
价格
2D 形象专属口型
支持对 2D 小样本专属口型的定制形象进行在架服务续期。
18美元/个/月
2D 形象通用口型
支持对 2D 小样本通用口型的定制形象进行在架服务续期。
2美元/个/月
3D 形象
支持对 3D 卡通、3D 半写实、3D 写实的定制形象进行在架服务续期。
84美元/个/月
声音极速小语种
支持对声音复刻的极速小语种版音色进行在架服务续期。
4美元/个/月
说明:
照片形象永久有效。

播报服务

播报服务是指用数智人提供音视频播报的能力,该场景下提供视频生成服务小时包、音频生成服务小时包以及视频生成服务并发三类服务。视频生成服务小时包以及并发将依据形象类型进行收费,不同形象类型的服务包不支持混用。
视频生成服务-小时包:可用于制作播报音视频的视频时长资源包。
音频生成服务-小时包:可用于制作播报音视频的音频时长资源包。
视频生成并发服务:支持同时在线生成视频的并发数量。
1. 视频生成服务-小时包
形象类型
功能描述
价格
2D小样本通用口型
数智人租赁/复刻声音视频生成时长10小时
1800美元/个
2D小样本专属口型
数智人租赁/复刻声音视频生成时长10小时
1800美元/个
2D小样本照片数智人
数智人租赁/复刻声音视频生成时长10小时
1800美元/个
3D
数智人租赁/复刻声音视频生成时长10小时
3600美元/个
2. 生成视频(含音频)小时包-形象免训练版,即不搭配形象直接合成视频。
形象类型
功能描述
价格
2D 小样本免训练(视频素材)
视频播报合成小时包-免训练版10小时
4,500美元/个(10小时)
2D 小样本免训练(照片素材)
视频播报合成小时包-免训练版1小时
2,000美元/个(1小时)
说明:
2D 小样本免训练(视频素材):默认同一个用户可同时提交5个视频制作任务,由主子账号共享,调用的并发资源是所有客户共享,可能会出现排队等待的情况。
2D 小样本免训练(照片素材):默认同一个用户可同时提交1个视频制作任务,由主子账号共享,调用的并发资源是所有客户共享,可能会出现排队等待的情况。
免训练并发资源为独享,无需额外购买小时包;例如客户购买了2路并发,则一共可同时提交2个免训练视频制作任务。
购买的视频素材照片素材的小时包或并发不可混用
3. 音频生成服务-小时
小时包类型
功能描述
价格
通用音频播报合成
限云服务,数智人租赁/复刻声音音频生成时长1小时包
10美元/个
4. 播报并发
形象类型
功能描述
价格
2D小样本通用口型
支持2D小样本通用口型,分辨率最高1080p。
500美元/月/路
2D小样本专属口型
支持2D小样本专属口型,分辨率最高1080p。
500美元/月/路
2D小样本照片
支持2D小样本照片,分辨率最高1080p。
500美元/月/路
3D
支持3D,分辨率最高1080p。
800美元/月/路
2D 小样本免训练(视频素材)
支持 2D 小样本免训练(视频素材),分辨率最高1080p。
注:与照片素材不可混用,可代替对应小时包
2,000美元/路/月
2D 小样本免训练(照片素材)
支持 2D 小样本免训练(照片素材),分辨率最高1080p。
注:与视频素材不可混用,可代替对应小时包
2,000美元/路/月

交互服务(云渲染会话驱动并发)

交互服务是指用数智人提供语音交互的能力,常用与智能客服、数智人直播等场景,该场景下提供交互并发的服务,具体是指支持同时在线并发交互建流的数量。交互并发根据形象类型单独提供服务,不同形象类型之间不支持混用。
形象类型
功能描述
价格
2D小样本通用口型
支持2D小样本通用口型,分辨率最高1080p
500美元/月/路
2D小样本专属口型
支持2D小样本专属口型,分辨率最高1080p
500美元/月/路
2D小样本照片
支持2D小样本照片,分辨率最高1080p
500美元/月/路
3D
支持3D,分辨率最高1080p。
800美元/月/路

交互服务(端渲染场景)

端渲染模式
该模式下,需要搭配端渲染 SDK 进行使用。
说明:
2D 和 3D 计费逻辑不同,请仔细核对。2D 只需按年周期购买授权年包即可;3D 需要同时购买授权包(永久版)和会话驱动次数包。
形象类型
产品内容
功能描述
价格
2D
2D 端渲染 SDK 授权使用年包-按设备
支持通用口型、专属口型和照片等类型数字人,针对单台设备授权方式进行售卖。
1,200美元/年
2D 端渲染 SDK 授权使用年包-按应用
支持通用口型、专属口型和照片等类型数字人,按应用授权,包含 iOS 和 Android,不限制终端用户数量。
150,000美元/年
3D
3D 端渲染 SDK 授权 H5
用于对 SDK 进行授权,购买一次,终身可用。H5 版 SDK 需要搭配 WebGL 形象使用。必选。(线下购买,含1年维保)
34,287美元/个
3D 端渲染会话驱动次数包
用于统计3D端 SDK 的调用次数。单包支持100万次调用,按 GBK 编码,40字节=1次(即20个汉字算1次消耗),有效期自购买之日一年内。必选
2,000美元/个

私有化服务

若需要购买私有化服务,请联系您的商务经理进行报价。



帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈