腾讯最新发布的Yan模型,开启了无需游戏引擎的1080p 60fps实时AI视频生成新时代,延时仅0.11秒,支持无限视频长度。它基于约150天的游戏视频训练,实现高保真互动视频环境仿真,包含三个核心模块:
• Yan-Sim:实现帧级交互模拟,采用基于扩散模型的因果架构,结合高压缩VAE、DDIM采样优化与模型剪枝量化,确保1080p、60fps的实时性能。
• Yan-Gen:多模态扩散Transformer,融合文本、图像及动作控制,适配从封闭游戏到开放世界的多样场景,支持文本和图像导向的互动视频生成。
• Yan-Edit:多粒度实时编辑,结合结构(交互对象增减)与风格(颜色、纹理变换)编辑,利用深度图作为中间状态连接模拟与渲染模块,实现灵活可控的视频内容调整。
尽管Yan在技术规格上领先,但在视觉真实感和连贯性上仍略逊于Google Genie 3。后者具备更广泛的多模态能力和全球化训练数据,在多项公开基准测试中表现出色。Yan则更聚焦中文语境及合规应用。
这标志着AI游戏世界生成从传统引擎架构向纯AI推理时代的转变,未来有望彻底颠覆游戏开发与虚拟现实体验。当前主要挑战仍在于内容连贯性、对象持久性及成本效率,期待后续技术迭代进一步完善。
• Yan-Sim:实现帧级交互模拟,采用基于扩散模型的因果架构,结合高压缩VAE、DDIM采样优化与模型剪枝量化,确保1080p、60fps的实时性能。
• Yan-Gen:多模态扩散Transformer,融合文本、图像及动作控制,适配从封闭游戏到开放世界的多样场景,支持文本和图像导向的互动视频生成。
• Yan-Edit:多粒度实时编辑,结合结构(交互对象增减)与风格(颜色、纹理变换)编辑,利用深度图作为中间状态连接模拟与渲染模块,实现灵活可控的视频内容调整。
尽管Yan在技术规格上领先,但在视觉真实感和连贯性上仍略逊于Google Genie 3。后者具备更广泛的多模态能力和全球化训练数据,在多项公开基准测试中表现出色。Yan则更聚焦中文语境及合规应用。
这标志着AI游戏世界生成从传统引擎架构向纯AI推理时代的转变,未来有望彻底颠覆游戏开发与虚拟现实体验。当前主要挑战仍在于内容连贯性、对象持久性及成本效率,期待后续技术迭代进一步完善。