视频编码原理详解｜H.264/H.265/AV1核心机制解析

你有没有好奇过，手机里一段3分钟的1080p短视频，才十几MB，可原始画面每秒要处理近200万像素×60帧——光是RGB数据每秒就超2GB？它凭什么没把你的网卡和存储撑爆？答案就藏在视频编码里。

不压缩，视频根本没法传

假设用最朴素的方式存视频：每帧当一张BMP图，24位色深，1920×1080分辨率。单帧大小就是 1920 × 1080 × 3 ≈ 6.2MB。按30帧/秒算，1秒就要186MB——播10秒，硬盘先喊停。

所以所有实用视频格式（MP4、AVI、MKV、甚至微信小视频）背后，都离不开编码器。它不是“加密”，而是“聪明地扔掉人眼不太在意的信息”，再用数学方法把剩下内容压得更紧。

关键三步：预测、变换、熵编码

主流编码标准（H.264、H.265、AV1）基本都绕不开这三个核心动作：

1. 帧间预测：只存“变化”

连续的画面，大部分区域其实没动。编码器会拿前一帧当“参考帧”，计算当前帧哪些块移动了、怎么移动（叫“运动矢量”），然后只记录“这块从坐标(120,85)移到了(123,87)”——而不是重存整块像素。这就像发微信说“我挪了3步右、2步下”，比发一张新自拍照省太多。

2. 帧内预测 + DCT变换：把“冗余”揉成低频能量

对I帧（关键帧）或预测残留块，编码器先把8×8像素块切出来，用相邻已编码像素“猜”本块边缘趋势（帧内预测），再对误差做DCT（离散余弦变换）。简单说：把杂乱像素差值，转成一组“频率系数”。高频部分（细纹、噪点）数值小，低频部分（大色块、轮廓）数值大。

这时候就能大胆“砍”：把高频系数全设为0（人眼难察觉），再用量化表进一步缩小剩余系数——比如把[127, 32, 5, 0, 0, …]变成[120, 30, 0, 0, 0, …]。

3. 熵编码：给常用数字“缩名”

量化后大量0和小整数扎堆。编码器用CAVLC或CABAC（H.264里两种算法）给它们重新分配二进制码：出现多的数字（如0）用短码（如“0”），少见的用长码（如“11010011”）。就像摩斯电码里“E”是“·”，因为英语里它最常出现。

最后把这些压缩后的数据打包，加上时间戳、分辨率、帧率等信息，就生成了我们熟悉的.mp4文件。

举个真实例子

打开FFmpeg命令行，运行：

ffmpeg -i input.mp4 -vcodec libx264 -crf 23 -preset fast output.mp4

其中 -crf 23 控制质量（越小越好，文件越大），-preset fast 是编码速度与压缩率的权衡——选“slow”会多花几倍时间找更优运动矢量，文件可能小15%，但导出得等半天。

为什么新编码越来越“狠”？

H.265（HEVC）比H.264省一半码率，靠的是更大编码单元（64×64块）、更多帧内预测方向（33种 vs 9种）、更精细的运动补偿（四分之一像素精度）。AV1更激进：支持非方形块划分、自带去块滤波、甚至能学“人脸区域多留细节”。代价是编码慢、解码吃CPU——所以你刷抖音时手机发热，不只是5G在跑，芯片也在硬解AV1帧。

说到底，视频编码不是魔法，是几十年来工程师盯着人眼特性、数学极限和硬件能力，一帧一帧抠出来的平衡术：在你看不出区别前提下，把数据塞到最紧。