Wan2.2:开源且领先的大规模视频生成模型,推动视频AIGC进入新阶段

• 引入Mixture-of-Experts (MoE)架构,采用双专家设计分阶段处理噪声,实现27B参数容量下14B推理成本,显著提升生成质量与收敛速度。
• 融入电影级美学数据,细化灯光、构图、色调等多维标签,实现更精准且可控的风格化视频生成。
• 训练数据大幅扩容,图像+65.6% 视频+83.2%,全面增强模型对复杂运动、语义和美学的泛化能力,性能领先业内开源及闭源竞品。
• 发布高压缩TI2V-5B模型,结合Wan2.2-VAE实现64倍压缩率,支持720P@24fps文本/图像到视频生成,能在消费级GPU(如RTX 4090)高效运行,兼顾工业与学术需求。
• 支持多GPU推理(FSDP+DeepSpeed Ulysses),并已集成至ComfyUI、Diffusers生态,方便快速部署与二次开发。
• 丰富的扩展方案:文本、图像及文本-图像混合输入,多样prompt扩展方法(Dashscope API、本地Qwen模型)提升细节表现。
• 完整开源,Apache 2.0授权,兼顾自由使用与合规责任,助力科研与产业创新。

通过MoE架构巧妙平衡模型容量与推理效率,是提升大规模视频生成质量的关键路径;高压缩VAE设计结合先进的训练范式,推动高清视频生成从实验室走向实用化;数据与美学标签的精细打磨,确保生成内容具备更强的表达力与艺术感。
 
 
Back to Top