AudioStory 打破长音频生成瓶颈，首创统一理解-生成框架，实现连贯叙事与情感一致的长篇音频合成

AudioStory 打破长音频生成瓶颈，首创统一理解-生成框架，实现连贯叙事与情感一致的长篇音频合成。

• 利用大语言模型（LLM）分解复杂叙事请求，生成时序明确的子事件，确保场景自然过渡与情绪连贯。
• 创新“解耦桥接机制”，分离事件内语义对齐与跨事件一致性维护，提升多事件音频的整体协调度。
• 端到端训练架构，融合指令理解与音频生成，打破传统模块化训练限制，增强系统协同效应。
• 提供涵盖动画音效、自然声音等多领域的 AudioStory-10K 基准测试，验证模型在指令遵循和音质上的领先表现。
• 支持视频配音、音频续写及长篇叙事音频合成，示范包括《猫和老鼠》风格配音和复杂自然音场景还原。
• 开源代码已发布，依赖 Python 3.10、PyTorch 2.1 及 NVIDIA GPU，助力科研与工业应用快速落地。

AudioStory 重新定义长音频生成的可能，推动多模态叙事与智能音频创作进入新阶段。