封装格式
封装格式(Format)是一种将数字视频数据存储于计算机系统的文件格式。在互联网业务中,比较流行的封装格式有:
MP4:全称是 MPEG-4 Part 14,是一种最常用于存储音视频的数字多媒体容器格式,典型文件名扩展为".mp4";支持流式传输,iOS/Android/PC Web 三端支持良好。MP4文件头存储视频文件全部索引信息,如果视频较长(例如长达数小时),则其文件头过大会影响视频加载速度。
HLS(HTTP Live Streaming):是由苹果公司开发的一个基于 HTTP 协议的自适应码率流式通信协议,在流媒体服务器中应用广泛,iOS/Android/PC Web 端支持较好。但 IE 的支持情况依赖 Flash 的二次开发工作(建议使用腾讯视频云的 Flash 播放器控件)。由于基于标准 HTTP 协议,HLS 可以穿越任何支持 HTTP 标准流的防火墙和代理服务器。同时,HLS 也包含了标准加密机制和基于 HTTPS 的安全密钥分发,实现了一个简单的 DRM 系统。
FLV:是由 Adobe 公司开发的 Flash 视频标准,只能通过 Adobe Flash Player 及其 Web 浏览器插件播放。由于大部分移动操作系统并不支持 Flash Player 插件,因此需要独立开发才能播放该格式视频(建议使用腾讯视频云的 Flash 播放器控件)。
视频编码相关术语
编解码器
编解码器(Codec)是 coder-decoder 的缩写,是一个能够对数字视频进行编码/解码的程序或设备。常见的编解码器包括:
H.26x 系列,由 ITU(国际电信联盟)制定。该系列标准中,目前应用最广泛的是 H.264,其继任者为 H.265。同等画质下,H.265 的压缩率比 H.264 提高一倍,但受制于专利等因素,H.265 的应用尚未普及。
MPEG 系列,由 ISO(国际标准组织机构)下属的 MPEG(运动图像专家组)制定。
其他系列,例如 Google 开发的 VP8、VP9,Real 公司开发的 RealVideo 等。
码率
码率(Bitrate)是单位时间播放连续媒体(如压缩后的音频或视频)所需的比特数量,测量单位为“比特每秒”(bit/s或bps)。
帧率
帧率(Frame Rate)是单位时间内视频显示帧数的量度单位,测量单位为“每秒显示帧数”(Frame Per Second,FPS)或“赫兹”。
分辨率
分辨率(Resolution)是用以描述视频对细节的分辨能力,通常表示为每一个方向上的像素数量,比如640×480等。
GOP
GOP(Group of Pictures)是一组编码视频流内部的连续图像,指定了该组图像内部的帧内和帧间参考顺序。当遇到一个新的 GOP,意味着解码器不再需要参考之前的帧就可以解码下一帧图像。一个 GOP 可以包含以下图像类型:
I 帧(Intra Coded Picture):内部编码图像。一个独立编码的图像,不需要参考其他图像,每个 GOP 都由此类型的图像开始(按解码顺序)。
P 帧(Predictive Coded Picture):前向预测编码图像。包含前一帧或多帧解码图像(显示顺序)的运动补偿差异信息。在旧的 MPEG-1, H.262/MPEG-2 和 H.263标准设计中,P 帧只能引用显示顺序和解码顺序之前的一帧 I 或 P 类型图像,新版 H.264/MPEG-4 AVC 和 HEVC 标准没有限制。
B 帧(Bidirectionally Predictive Coded Pictures):双向预测编码图像。包含前一帧或多帧解码图像(显示顺序)的运动补偿差异信息。在旧的 MPEG-1 和 H.262/MPEG-2标准设计中,B 帧只能参考显示顺序上之前和之后的两帧 I 或 P 图像,新版 H.264/MPEG-4 AVC 和 HEVC 标准没有限制。
一个 GOP 内的帧数,称为 GOP 长度。
IDR 帧对齐
IDR 帧 (Instantaneous Decoding Refresh Picture) 是 I 帧的一种。与普通 I 帧的区别在于,一个 IDR 帧之后的所有帧都不能参考该 IDR 帧之前的帧的内容;相反,对于普通的 I 帧,其后的 P 帧和 B 帧可以引用该普通 I 帧之前的其他 I 帧。
在对同一个视频进行多码率时,如果指定 IDR 帧对齐(IDR Frame Alignment),则意味着所有输出视频的 IDR 帧在时间点、帧内容方面都保持精确同步,此时播放器便可实现多码率视频平滑切换,从而不会出现较为明显的切换卡顿。
编码档次
编码档次(Profile)是一组特定的编码参数的集合。由于编解码标准具有大量的功能特性,硬件和软件需要大量的努力才能支持整个标准,所以为了方便应用,选出一些常用的参数组合组成不同的编码档次。H.264 规定了三种主要档次:
Baseline:主要用于需要额外数据丢失容错的低成本应用,例如视频会议和移动。
Main:用于主流的消费级标清数字电视广播。
High:主要的广播和磁盘存储档次,尤其是高清电视应用,如蓝光存储格式和 DVB 高清电视广播服务。
颜色空间
颜色空间(Color Space)是对色彩的组织方式。借助色彩空间和针对物理设备的测试,可以得到色彩的固定模拟和数字表示。例如 RGB 颜色空间,HSB 颜色空间等。相对地,色彩模型(Color Model)是一种表示颜色空间颜色值的数学方法,通过一组数字来表示颜色(例如 RGB 使用三元组、CMYK 使用四元组)。
视频处理相关术语
视频降噪
所谓视频噪音,是由传感器、扫描仪电路或数码相机产生的图像的亮度或彩色随机变动。视频噪音也源自于胶片粒度和不变的量子检测器中的点噪声。视频噪音通常被看作图像获取中不需要的成分。而视频降噪,则是去除这些不必要的噪声,保留视频中比较重要的细节等信息。
去隔行扫描
在模拟电视时代,播放设备的处理速度与网络带宽都存在限制。为了在确保不降低帧率的前提下降低传输码率,隔行扫描技术应运而生,该技术可以在图像质量下降不多的情况下,将视频传输带宽降低一半。但隔行扫描带来的负面影响也不可忽视,例如清晰度较低、容易产生闪烁、图像边缘锯齿化等。
目前,视频播放设备与网络带宽都已经得到长足发展,故而隔行扫描已经被逐步淘汰。部分新型设备已经不再支持隔行扫描。因此,对于部分历史遗留的、使用隔行扫描技术的视频,需要进行“去隔行扫描”操作。
音频编码参数
编解码器
编解码器(Codec)是将声音从模拟信号转换为数字信号(或反向转换)的方式。主要包括无损编码和有损编码两种方式。根据采样定理,音频编码只能“无限接近”自然信号,故而所有的音频编码器实质上都是有损的。在计算机领域中,通常约定能够达到最高保真水平的 PCM 编码为无损编码。互联网中常见的音频编码均为有损编码,常见的编码格式有 MP3、AAC 等。
采样率
采样率(Sample Rate)是每秒从连续信号中提取的离散信号的数量,单位为赫兹(Hz)。
码率
参见上文视频编码相关术语中 码率(Bitrate)的描述。 声道
声道(Sound Channel)是指声音在录制(或播放)时,在不同空间位置采集(或播放)的相互独立的音频信号。所谓声道数,也就是声音录制时的音源数量或播放时的扬声器数量。
其它通用术语
ISO 日期格式
ISO 日期格式(ISO Datetime)是 ISO 8601 标准规定的时间表示方式。如无特别指定,所有时间相关参数统一采用 ISO 8601 表示的 UTC 时间,格式为 YYYY-MM-DDThh:mm:ssZ。如:2018-10-01T10:00:00Z,表示北京时间 2018 年 10 月 01 日 18点 00 分 00 秒(北京时间值为 UTC 时间值 + 8 小时)。