NeuCodec:高效轻量神经音频编解码器,专为语音AI开发设计

• 仅0.8 kbps超低码率,16kHz输入,输出24kHz高品质音频,重建损失接近不可察觉
• 结合音频编码(BigCodec)与语义编码(Wav2Vec2-BERT),实现50 tokens/sec,16位量化,支持高效语音token化
• 基于有限标量量化(FSQ),单向量输出,完美契合下游SpeechLM训练需求
• 商业开放许可,适合集成至工具与产品中,支持真实场景应用
• 附带大规模预编码数据集,已将Emilia-YODAS数据从1.7TB压缩至41GB,大幅降低训练算力门槛
• 社区开源,Apache-2.0协议,代码基于X-Codec2.0扩展,持续迭代优化中
• 安装简便,Python环境即刻部署,快速集成现有语音处理流程

在音频压缩与语义理解间找到平衡,NeuCodec为构建高效、低资源消耗的语音系统提供了坚实基础。适合研究人员和工程师加速文本转语音及语音理解模型开发。
 
 
Back to Top