AudioStory 打破长音频生成瓶颈,首创统一理解-生成框架,实现连贯叙事与情感一致的长篇音频合成。
• 利用大语言模型(LLM)分解复杂叙事请求,生成时序明确的子事件,确保场景自然过渡与情绪连贯。
• 创新“解耦桥接机制”,分离事件内语义对齐与跨事件一致性维护,提升多事件音频的整体协调度。
• 端到端训练架构,融合指令理解与音频生成,打破传统模块化训练限制,增强系统协同效应。
• 提供涵盖动画音效、自然声音等多领域的 AudioStory-10K 基准测试,验证模型在指令遵循和音质上的领先表现。
• 支持视频配音、音频续写及长篇叙事音频合成,示范包括《猫和老鼠》风格配音和复杂自然音场景还原。
• 开源代码已发布,依赖 Python 3.10、PyTorch 2.1 及 NVIDIA GPU,助力科研与工业应用快速落地。
AudioStory 重新定义长音频生成的可能,推动多模态叙事与智能音频创作进入新阶段。
• 利用大语言模型(LLM)分解复杂叙事请求,生成时序明确的子事件,确保场景自然过渡与情绪连贯。
• 创新“解耦桥接机制”,分离事件内语义对齐与跨事件一致性维护,提升多事件音频的整体协调度。
• 端到端训练架构,融合指令理解与音频生成,打破传统模块化训练限制,增强系统协同效应。
• 提供涵盖动画音效、自然声音等多领域的 AudioStory-10K 基准测试,验证模型在指令遵循和音质上的领先表现。
• 支持视频配音、音频续写及长篇叙事音频合成,示范包括《猫和老鼠》风格配音和复杂自然音场景还原。
• 开源代码已发布,依赖 Python 3.10、PyTorch 2.1 及 NVIDIA GPU,助力科研与工业应用快速落地。
AudioStory 重新定义长音频生成的可能,推动多模态叙事与智能音频创作进入新阶段。