TTT-Video-DIT:让视频风格迁移和上下文扩展变得轻松又高效。

利用TTT层处理长距离关系,提升全局上下文处理能力;支持最长63秒的视频生成,分阶段训练,逐步扩展视频长度;基于CogVideoX 5B模型,性能强大且可扩展性强
 
 
Back to Top