SecoustiCodec:实现跨模态对齐的超低码率实时语音编解码技术

• 码率超低,仅0.27-1 kbps,极大节省带宽资源
• 跨模态对齐,保证文本与语音的同步,提升语义一致性
• 说话人特征保留,语义与副语言信息有效解耦,保真度高
• 流式架构支持实时处理,适合在线语音传输和通信场景
• 高效编码:结合变分自编码器(VAE)与有限状态量化(FSQ)技术
• 开源且支持多平台快速部署(Ubuntu/macOS),易于集成和二次开发
• 提供两种模型版本,分别支持21.5 Hz(0.27 kbps)和86 Hz(1.0 kbps)帧率,满足不同需求
 
 
Back to Top