Stand-In:轻量级即插即用的身份保持视频生成框架,极大提升视频中人脸一致性与自然度,训练成本仅占基线模型的1%。

• 训练高效:仅需训练基线模型1%参数,显著降低资源消耗。
• 身份保持:实现顶级的人脸相似度和视频自然度,超越多种全参数训练方案。
• 灵活集成:无缝嵌入文本到视频(T2V)模型,支持姿态控制、视频风格化、换脸等多样任务。
• 兼容拓展:支持社区LoRA模型,方便进行风格迁移和多样化视频生成。
• 开源资源:已发布Wan2.1-14B-T2V适配权重与推理代码,开放训练数据及代码计划中。
• 实用示例:文本驱动身份保持视频生成,非人类角色呈现,吉卜力风格视频及换脸演示均可实现。
• 易用快速:提供自动下载权重脚本,支持高分辨率正脸图片输入,提示词中可中英文混用,生成近景视频效果最佳。

探索视频生成的新维度,Stand-In以极简成本实现高保真身份控制,助力多样化创作与研究。
 
 
Back to Top