LONGLIVE – 英伟达等推出的交互式长视频生成框架
LONGLIVE是什么
LONGLIVE 是英伟达等顶尖机构联合推出的实时交互式长视频生成框架。框架通过帧级自回归(AR)模型,结合 KV-recache 机制、流式长视频微调和短窗口注意力 + 帧汇入技术,解决长视频生成中效率和质量的双重瓶颈。LONGLIVE 能在单个 H100 GPU 上以 20.7 FPS 的速度生成长达 240 秒的高质量视频,支持实时提示词切换和动态调整,为创意、教育和影视等领域开辟了新的创作可能性,是推动 AI 视频生成从“玩具”走向“生产力工具”的关键一步。
LONGLIVE的主要功能
- 实时交互:支持用户在视频生成过程中实时输入流式提示词(prompt),动态调整视频内容,引导叙事或改变风格。
- 长视频生成:模型能生成长达数分钟的高质量视频,支持复杂的叙事和场景发展。
- 高效推理:在单个 NVIDIA H100 GPU 上达到 20.7 FPS 的实时速度,支持长达 240 秒的视频生成,同时保持高保真度和时间连续性。
- 高质量生成:通过创新技术确保生成视频的视觉连贯性和语义一致性,在频繁切换提示词时能保持平滑过渡。
- 低部署成本:支持 INT8 量化推理,进一步降低模型大小和部署成本,几乎不损失性能。
LONGLIVE的技术原理
KV-recache 机制:在切换提示词时,通过重新计算键值(KV)缓存“刷新”状态,清除旧提示词的残留信息,同时保留视觉和运动线索,确保画面平滑过渡并精准执行新指令。将 recache 操作整合到训练中,使模型在训练时就学会如何在提示词切换后平滑过渡。
流式长视频微调(Streaming Long Tuning):解决自回归(AR)模型在长视频生成中的质量衰减问题,通过“滚动扩展”的方式模拟推理过程,减少训练与推理的不一致性。用局部监督和梯度分离,避免长序列反向传播导致的内存溢出(OOM)问题,确保教师模型的可靠监督。
短窗口注意力 + 帧汇入(Frame Sink):基于短窗口注意力,将注意力范围限制在局部窗口内,显著降低计算复杂度和内存需求。引入帧汇入机制,通过保留全局锚点(如视频的第一帧块),恢复长程一致性,同时保持短窗口的高效性。
LONGLIVE的项目地址
GitHub仓库:https://github.com/NVlabs/LongLive
HuggingFace模型库:https://huggingface.co/Efficient-Large-Model/LongLive-1.3B
arXiv技术论文:https://arxiv.org/pdf/2509.22622
LONGLIVE的应用场景
- 创意视频制作:创作者能实时调整视频内容和风格,快速生成符合创意需求的长视频,提升创作效率和灵活性。
- 教育内容生成:教师根据教学进度实时生成教学视频,动态插入知识点或案例,增强教学互动性和趣味性。
- 影视制作:导演和编剧能在拍摄前实时预览不同场景和叙事路径,快速调整剧本和拍摄计划,降低制作成本。
- 广告创作:广告团队能根据客户需求实时生成广告视频,快速调整创意方向,提高广告的针对性和吸引力。
- 游戏开发:开发者能实时生成游戏过场动画或动态背景,根据游戏剧情实时调整内容,提升玩家沉浸感。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

随时掌握互联网精彩
- 1 中华民族的文化根脉 7904398
- 2 到了冰岛以为没出国 身边全是中国话 7809295
- 3 用微信收付款这个功能一定要开启 7712019
- 4 中秋“硬核”赏月指南来了 7618750
- 5 游客偶遇大熊猫过河 景区:纯野生 7520740
- 6 年轻人开始追求“情绪旅游” 7423585
- 7 王曼昱4比2战胜孙颖莎 夺女单冠军 7332948
- 8 王楚钦横扫小勒布伦 加冕三冠王 7233279
- 9 越来越多人爱上了“窝囊游” 7137545
- 10 朝鲜武器展震撼登场 7048022