酷应用

如何检测 AI 生成视频？

软件作者：小鲅鱼 2026-07-01 13:07:44

判断一段视频是不是 AI 生成的，光盯着画面看不出名堂——Sora、可灵、Veo 这代模型的画面质量已经过了"一眼假"的阶段。真正有效的入手点在文件内部：视频文件从容器到码流有好几层可以藏来源信息的地方，生成平台或主动或被监管要求地在里面留了痕迹。这篇按从外到内的顺序，把每一层怎么查讲清楚。

第零步：搞到原始文件，这一步决定一切

先理解转码对证据的破坏有多彻底。你把视频发到社交平台，平台会用自己的编码器重新压制一遍：码流换成平台的 H.264/H.265 参数，容器重新封装，encoder 字段变成平台转码集群的标识，原文件的工具字段、AIGC 标签、C2PA 全部消失。录屏更不用说——那是对着屏幕重新生成了一个无关的新文件。

所以最理想的检测样本是从生成平台直接下载、没经过任何转手的 MP4/MOV。微信里转出来的、抖音上保存的，能查到东西的概率会低得多（不是零——帧水印有时还在，后面会说）。

第一层：容器元数据（moov → udta → meta → ilst）

MP4/MOV 的元数据放在 box 树的 ilst 列表里，有两种键：iTunes 风格的四字符键（©too 编码工具、©swr 软件）和 keys box 配套的字符串键（encoder、tool、software）。检查这几个键的值是否命中已知 AI 工具名。一个实际例子：部分 Veo 导出的视频，©too 的值就是一个单词 "Google"——平平无奇，但正常相机和剪辑软件不会这么写。

国产平台的 AIGC 隐式标识

这层有个中国特色的可靠线索。《人工智能生成合成内容标识办法》（2025 年 9 月 1 日起施行）要求生成平台在文件中加入显式和隐式标识，隐式标识落到 MP4 上，就是 ilst 里一个键名为 AIGC 的条目，值是 JSON：

{"Label":"1","ProduceID":"...","ContentProducer":"001191330106MA2CFLDG4R10001"}

Label 为 "1" 即声明 AI 生成；ContentProducer 是生产者注册编码，可以反查平台——上面这串编码对应通义万相（Wan）。这套机制让合规的国产平台视频反而比海外平台更好溯源。

第二层：码流里的 SEI marker

再往里一层是视频码流本身。H.264/H.265 允许在码流中插入 SEI（补充增强信息）单元，部分平台在里面留了 ASCII 工具标记。对 mdat box 的前 1MB 做字节扫描，可能找到这些字符串：kling-ai、sora、runway、pika-labs、luma-ai、hailuo、pixverse、vidu-ai、genmo、haiper。

SEI 的价值在于它的位置：嵌在码流里而不是容器里。"重新封装但不重新编码"的操作（比如用 ffmpeg -c copy 把 MP4 转成 MOV）会换掉全部容器元数据，但 SEI 原封不动。当然，真转码（重新编码）还是会把它抹掉。

第三层：C2PA / Content Credentials

Sora 等平台的部分导出带 C2PA manifest（JUMBF 容器，存放在 MP4 的 uuid box 中，一般在文件头部区域）。浏览器版的做法是扫描文件前 2MB，找 c2pa、digitalSourceType、claim_generator、contentauth 这些特征文本，再对命中区域做工具名匹配和来源类型判断：trainedAlgorithmicMedia 记高置信度。注意这是快速扫描而非签名验证，区别在 C2PA 文章里有完整说明。

第四层：文件名和帧水印

文件名是最弱的信号——谁都能改——但默认下载名确实带信息，作为辅助线索记低置信度。

容器和码流都没命中时，最后一招是看画面本身的水印，分两种：

可见角标：《标识办法》的显式标识要求，落地形式是画面角落的"AI 生成"半透明文字。国内平台基本统一放在左上或右下角。检测方法是对角部区域做亮度分析：找比周围明显亮的短笔画游程、检查它们是否聚成紧凑的文字状区块、亮度分布是否双峰。多个指标同时命中才报，避免把普通台标误判成 AI 标识。

隐形水印：嵌在像素里的不可见信号。检测思路是对抽样帧做 Haar 小波变换，在低频子带里找量化嵌入的痕迹——RGB 三通道噪声水平的异常不对称、跨通道提取比特的异常一致性等指标，至少两项同时命中才报告。这类分析给出的是"存在水印状统计异常"的概率判断，置信度天然低于元数据命中，结果要谨慎解读。

抽帧依赖 ffmpeg.wasm，页面采取懒加载：只有元数据层全部落空、确实需要看帧时才下载和初始化它，所以多数检测在元数据层就结束了，很快。