黑洞资源笔记
14:15 · Oct 3, 2025 · Fri
视频生成模型往往受限于长度和质量的矛盾,
Infinite-Forcing
项目提出了“V-sink”机制,稳步提升无限长视频生成的效果。
该项目基于自回归视频扩散模型,模拟推理过程进行训练,解决训练-测试分布差异,实现单卡RTX 4090下的实时流式视频生成,质量媲美最先进扩散模型。
主要特点:
- 引入 V-sink 概念,利用首帧作为记忆上下文,缓解曝光偏差(drift);
- 训练时结合 RoPE 操作后取 KV 缓存,提升长序列推理稳定性;
- 支持动态交互式视频生成,可实时调整文本控制内容;
- 开源且依赖丰富,适合科研和工程实践。
适合对视频生成、扩散模型、实时交互等方向感兴趣的开发者和研究者关注。
Home
Powered by
BroadcastChannel
&
Sepia