tencent cloud

腾讯云智能数智人

产品简介
产品概述
产品功能
产品优势
购买指南
价格指南
购买指引
使用代金券购买流程
退费说明
数智人形象介绍
形象类别介绍
基础形象库
形象和声音复刻指引
数智人平台操作指引
访问平台
形象生产与资产管理
数智人会话互动应用与管理
播报数智人视频生成与管理
运营管理与分析
服务端 API 接入
数智人 API 接入模式概述
数智人 aPaas 接口调用方式
2D真人小样本形象、声音定制 API 文档
视频生成服务 API 文档
交互数智人服务 API 文档
个人资产管理 API 文档
客户端 SDK 接入
整体介绍
3D 端渲染 SDK 接入
2D 端渲染 SDK 接入
数智人 SSML 标记语言规范
相关协议
隐私协议
DSA(Data Sharing Agreement)
常见问题

声音复刻录制指引-基础版

PDF
聚焦模式
字号
最后更新时间: 2024-09-18 20:42:37

一、定制素材自检项

声音复刻需提交一段100句文本的音频,提交前请务必逐条检查以下自检项:
1. 无复刻人外的其他人声录入。
2. 音频收音音量适中,无明显混响、底噪,及其他噪声。
3. 使用中文,普通话录制;文本有一定丰富性,不能存在大量的语句重复。
音频格式要求:
1. 所有音频需转化为 wav 格式,并压缩成 zip 包提交。
2. 直接选中所有音频文件直接压缩为 zip 包(不可新建文件夹后压缩),压缩包不超过1G。
3. 每条音频采样率须是24K及以上,单条音频长度不超过1小时。
4. 音频命名无空格或者特殊字符。

二、音频录制指引(文字版)

录制内容

按停顿-读-停顿的循环过程,依次朗读100句文本并生成音频。
录制文本:可自行选择自己领域熟悉的文本,也可参照附件参考文本,语句越多训练效果越好。
文本要求:中文汉字文本;单句子最长不超过50字,平均句子控制在20字左右。
音频个数:可一整段或分为几段音频均可,最多不超过10个。
音频格式:录制时推荐无损 WAV 格式(具体格式不限制),不低于24k采样率。

注意事项

环境要安静无杂音,建议麦克风有防风罩且与嘴的距离在10cm内,音量保持适中;
尽量避免在光滑墙面、地板房间录制,如大面积玻璃墙面或大理石地板房间,以避免引入混响;
提前熟悉朗读文本,避免录制断断续续;
注意尽量不要喷麦;
每个句子结束自然停顿;句子中按照文本正常表达进行自然停顿;
按照本身说话的风格,有韵律的朗读;
吐字清晰,保证台词读音正确;
除了讲话之外,不要做其余动作,避免多余声音(如衣服摩擦等声音、吞咽声)。
注意:
定制音频的效果和原视音频的质量息息相关,若音频质量好,最终的声音复刻效果也越好;音频质量差,最终定制效果也会差。
如:原音频中包含噪声,最终定制的效果也将包含噪声。

三、典型问题

爆音
避免出现爆音,通常离麦克风过近,麦克风没有防喷麦海绵,或录音语音音量过大会出现爆音。
抿嘴音,口水音、喘息及喷麦声
避免录音过程中过多闭口张口或吞咽导致的抿嘴音、口水音减少较明显的喘息声,喷麦声。
噪声及混响
避免麦克风离嘴部过远,避免在有明显背景噪声的环境录音,如有其他背景人声,空调声,背景音乐等;避免引入混响,通常在较多玻璃光滑墙壁房间会有较强混响。
频谱缺失
避免采用自带增强或降噪等处理模块的录音软件,避免导致对原始语音的损伤及频谱频段缺失的录音软件,避免导致对原始语音的损伤及频谱频段缺失。

四、音质检测接口指标说明

目前通过 音质检测任务创建接口 可以对如下指标进行检测,辅助判断音频里存在的问题。指标说明如下:
信噪比:音频中有用信号能量与噪声能量的比值,越大越好,该指标大于等于30可认为合格。
信噪比不达标的原因:
可能是由于录制环境的噪声比较大,可换个更安静的环境进行录制;
可能是由于嘴巴离麦克风太远,导致有用信号能量不够,可适当调整麦克风与嘴巴的距离,以10cm的距离为宜。(距离过近容易导致喷麦或者截幅)
混响指数:音频中有用信号能量与回声能量的比值,越大越好,该指标大于等于30可认为合格。
混响指数不达标的原因:
可能是录制环境不佳产生了回声,大的空间、硬质的墙面容易产生回声,尽量选择空间较小、软包较多地方进行录制,例如卧室、车内等。
截幅:截幅表示部分音频的幅值超过了最大允许范围,通俗来说就是音频的音量过大了;该指标小于等于0可认为合格。
截幅不达标的原因:
一般是由于录制时嘴巴离麦克风过近,可适当调整麦克风与嘴巴的距离,以10cm的距离为宜;
也可能是录制软件的音量设置过大造成的,可以通过调整录制软件的音量来解决。
截幅不达标的音频的波形图示意:



截幅达标的音频的波形图示意:



部分音频示例:
附件中罗列了“高质量音频”、“混响不达标”、“信噪比不达标”、“信噪比和混响均不达标”、“音频存在截幅”的示意音频,供下载试听。
音频示例.zip(1.1MB)



帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈