TTT-Video-DIT：让视频风格迁移和上下文扩展变得轻松又高效

TTT-Video-DIT：让视频风格迁移和上下文扩展变得轻松又高效。

利用TTT层处理长距离关系，提升全局上下文处理能力；支持最长63秒的视频生成，分阶段训练，逐步扩展视频长度；基于CogVideoX 5B模型，性能强大且可扩展性强