形象录制指引-专属口型

最后更新时间：2025-04-09 15:07:13
形象录制指引-专属口型
最后更新时间： 2025-04-09 15:07:13
一、定制素材自检项
 形象定制需提交一段3 - 5分钟的真人口播视频。提交前请务必逐条检查以下自检项：
1. 视频画面：人脸清晰不模糊，人脸区域放大后边缘轮廓清晰，画面稳定无晃动。
2. 模特表现：眼睛正视镜头，无大幅转头、偏头，脸部全程无遮挡。
3. 拍摄要点：视频开头静默闭口1 - 3秒，整条视频全程无剪辑、跳帧，全长须超过3分钟。
4. 环境声音：无其他人声掺入，无明显环境噪声，视频音画同步（声音与口型须对应）。
5. 拍摄背景：如果需我方抠像，则需提供绿幕或白幕背景视频，绿幕或白幕需铺满背景、无其他杂物。
视频格式要求：
1. 视频大小不超过5GB，时长不短于3分钟、不长于10分钟。
2. 视频格式为 mp4、mov。
3. 视频分辨率1080P、4K（3840*2160），宽高比符合16:9 (9:16)，如下图所示。模特示例﻿
16:9
﻿
9:16
﻿
4. 视频帧率不低于25fps、不高于60fps。
5. 视频里的人物的头部需朝上，若人物横置则需要进行旋转调整。
视频指引：拍摄指引﻿
二、拍摄指引
拍摄场地布置
1. 场地选择
注意：
如有后期有换背景需求可使用绿幕或白幕拍摄；如对固定背景有诉求可选择适宜的环境进行实景拍摄，后续生成的视频均会保留此背景。
实景拍摄：请选择光线稳定充分，安静无杂音的实景房间录制。（实景拍摄即固定背景，后期不支持更换其他背景；室外拍摄需要佩戴麦克风，保证声音清晰无噪音）
绿幕拍摄：请选择光线稳定充分，安静无杂音的绿幕房间录制。
白幕拍摄：请选择光线稳定充分，安静无杂音的白墙or白幕房间录制。（白幕拍摄暂不支持带桌椅拍摄）
2. 模特服装造型选择
模特：五官端正、有颜值、有⽓质、说话⼝⻮清晰、表演⾃然、优先上镜经验丰富的模特。
服装：
实景拍摄：对服装颜色无要求；
绿幕拍摄：不要选择反光材质/格子条纹的服装；不要选择绿色的相近色服装（如黄色、绿色、黄绿色），以免影响抠图效果。
白幕拍摄：避免穿白色系服装；白色衣服如果不在身体边缘（例如西装内搭），则可以穿着。
发型：发型规整, 避免明显发缝、碎发；避免佩戴会晃动的耳坠。（仅针对绿幕拍摄和白幕拍摄的素材有此要求，实景拍摄无此限制）
实景拍摄示例：
﻿
﻿
﻿
绿幕拍摄示例：
﻿
﻿
﻿
白幕拍摄示例：
﻿
﻿
﻿
双人数智人示例：（测试开放中，敬请期待）
﻿
﻿
﻿
3. 拍前模特准备工作
3.1 确定姿势
选择模型的姿势，注意图中人物的位置和比例
﻿
﻿
﻿
前坐:应特别注意为手部运动留出足够的空间
﻿
﻿
﻿
侧坐:特别注意确保嘴角的完全露出来
﻿
﻿
﻿
站姿要保持正面半身姿势
﻿
﻿
﻿
完全正面姿势
3.2 确定服装、造型和模特的位置（特别注意绿屏拍摄）
a) 避免穿绿色或类似颜色的衣服、饰品（包括任何绿色或易反射的饰品）
﻿
b) 避免蓬乱、多毛的发型。（影响绿屏铺垫的效果及后续使用）
﻿
c) 避免穿细网、条纹、透明纱的衣服、破旧的裙子等，以避免拍摄透明、莫尔图案等情况。
﻿
﻿
d) 事先确定是戴眼镜还是隐形眼镜（以避免提词器和反射光的眼镜出现问题）。
﻿
e) 可以化妆（避免使用闪光和高光）
﻿
f）避免使用摇摆的耳环，但如果它们能完全被头发覆盖，并且不暴露在绿色屏幕背景下，则可以佩戴。
﻿
g) 建议模特站在离绿幕1.5到2米远的地方，避免从身体边缘反射绿光。
﻿
3.3 模特注意事项
保持你的眼睛对着镜头（除非你在拍摄一个侧面的数字人）。
当你收到摄影师开始拍摄的信号时，自然地站立，不说话，眨眼并微微点头，并保持这种沉默状态超过3秒钟。
开始以自然状态说话，保持自然的头部和手部动作，持续3分钟以上。
即使你犯了错误，也不需要停下来，只要继续说。
可以使用提词器，但更建议不要看提词器；文字可以用于介绍、讲故事等。
在不说话的情况下，用自然的头部和手部动作模拟自然说话状态，保持1分钟以上（第3和第4项）
交互式数字人应该尝试说话6到30秒，然后进行一个通用的手势动作，这个动作应该在2到3秒内完成。之后，数字人应该再次说话6到30秒，然后再做一个手势。这个过程应该重复，直到视频录制完成。在演讲的最后部分，不需要手势。
在做头部动作时，注意全程张大嘴巴（例如，不要把头转向一边），不要做大的手部动作，不要做有明确指示的手势（例如，你好，再见，数字1、2、3等）。
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿
3.4 其他建议
条件允许的情况下，可以拍摄多个姿势、多个角度、多套服装材质，方便以后选择，需要注意的是，上传多个材质需要使用多个模特的训练配额
该材料可以配合适当的面部美化操作，但建议避免面部瘦身功能（这可能会导致面部尺寸发生变化）。
原则上，语音克隆需要10秒以上，时间越长，恢复程度越高，使用自然说话的语调，避免使用阅读时的语调。大声说（除非你想用这种方式训练模型）。
在拍摄过程中，点头姿势应保持最小幅度和减少频率，以确保画面的细腻和自然。
4. 拍摄设备和布光
拍摄过程画面稳定不抖动，录制过程中光线不发生显著的变化。
相机拍摄设置：分辨率4K或1080P，帧速率30fps，曝光正常；手机拍摄设置：视频模式（非电影效果），分辨率4K或1080P，帧速率30fps，关闭PAL 格式，关闭HDR模式
绿幕平整无褶皱，铺满画面。
一镜到底，不要拼接视频；没有摄像机遮挡行为；当你发现画面不正常时（例如，人们从画面中移动出来等），中断并及时重新拍摄。
﻿
﻿
﻿
﻿
﻿
﻿
5. 手机拍摄标准
手机设备首选苹果手机，拍摄时具体参数如下：后置摄像头拍摄、视频模式（非电影效果），大小1x，分辨率4K，帧率30fps；关闭 PAL 格式、HDR 模式、自动 FPS，关闭入口：设置 > 相机 > 录制视频。
具体设置如下图所示：
﻿
﻿
﻿
拍摄录制
1. 视频录制站位
﻿
﻿
﻿
2. 拍摄监测实时预览
 可通过 obs 等软件实时预览抠图效果，可前置发现配饰反光、面部&服装反绿光等情况，在拍摄现场可实时调整拍摄方案，避免反复录制耽误定制的进度。
3. 拍摄录制（需同期收音）
景别选择：若最终生成的视频用于竖屏场景，建议使用竖屏拍摄；横屏同理。当全身出镜时，确认人像尽量大，手部动作不要出画面。
录制过程：
1. 启动录制后, 模特先闭口1-3秒, 保持姿态不动。
2. 接下来, 模特自然说话3-5分钟；避免相同文案不断重复；说话过程可以自然小幅动作, 眼睛不要斜视、需正视摄像头。
3. 说话结束后，停止录制。
动作建议：说话时双手可以做一些中性百搭的动作，不会做动作的可以双手交叉放在身前。注意手势幅度要小、频率要低，轻柔匀速，不要遮挡脖子和面部；手势避免有语义或者指向性，需适配所有的文本。（如果该数智人最终用于实时交互场景，则对手部动作有额外的要求，详见该页面第五部分）
三、后期处理
1. 剪辑
掐头去尾，去掉开头、结尾多余画⾯。 
剪辑⼯程的帧速率设置须和拍摄的素材帧速率保持⼀致，避免声画⼝型不对位。 
2. 调⾊及美颜
修复画⾯瑕疵，确保模特颜值在线，但要保留模特⽪肤质感，不能太⽩、太平。 
3. 调⾳
如果视频⾥的⾳频有噪⾳，需要去噪，确保声⾳质量良好，同期声清晰。 
4. 抠像
若您具有抠像能力，可以对原始视频提前进行抠像处理。根据所提供视频素材，将支持提供不同的视频输出能力。
﻿
情况一：提供经过抠像处理后的“纯绿底视频”（下图视频2），数智人侧绿底背景视频直接输出（下图视频3）
客户提供经过抠像处理后的绿底视频进行训练，数智人侧将直接使用绿底作为最终输出的视频背景，定制效率较高，交付时间短。抠像指南如下：
抠除绿布背景，去除演员⾝上绿⾊反光，记得⽤其他背景颜⾊检查是否抠⼲净，要确保能适配任何背景画面。 
抠像⼲净后，背景填充纯绿⾊，#00ff00 (R:0、G:255、B:0) 。
﻿
﻿
﻿
数智人交互&播报接口里输出的视频&视频流，不支持更换背景，即：①不支持替换背景输出；②不支持输出透明背景的webm视频。客户拿到数智人输出的视频后，还需要在应用场景中进一步去绿处理。
﻿
情况二：提供原始拍摄视频外，额外提供 alpha 通道的视频（下图视频2），数智人侧支持背景更换输出（下图视频3） 
需要同时提供“视频1：原始拍摄视频”（也可以是经过加工的视频）和“视频2：alpha通道视频”，这两个视频的分辨率、时长需要完全一致。
此情况下，数智人交互&播报接口里输出的视频&视频流，支持更换背景。
﻿
﻿
﻿
四、小样本用于交互场景时录制要求
如果小样本需要用于实时交互场景，在录制3-5分钟视频时，对模特的手部动作有额外的要求。具体要求为：
单个动作需简短（详见“手部动作示意”）、动作做完快速归位（详见“手部归位示意”），动作和动作之间需相隔5秒以上。
注：最终的数智人动作和拍摄时的动作完全一致；也可全程不做动作，则最终的数智人也无手部动作。
1. 手部动作示意：
模特的手部可做一些尽量通用的动作，动作做完要尽快归位，单个动作不超过2秒钟；该片段将在数智人交互场景中，用于“说话态”的动作。示意图如下：
﻿
﻿
2. 手部归位示意：
该片段里，模特在保持自然说话的同时，手部尽量不要用明显的动作；该片段将在数智人交互场景中，用于“倾听等待态”。示意图如下：
﻿
﻿
3. 录制 Demo 参考视频如下：
﻿
﻿
﻿
﻿