FluidAudio:苹果设备上的全本地低延迟音频处理框架,专注于实时语音识别与说话人分离,性能优异且资源占用极低。| #框架

• 支持自动语音识别(ASR),采用Parakeet TDT-0.6b模型,支持流式转录,延迟约1.2秒/分钟音频
• 说话人分离与聚类基于Pyannote模型,DER与JER指标优于多项业界方案,实时因子(RTF)仅0.02x,处理速度远超实时50倍
• 语音活动检测(VAD)内置Silero模型,支持自适应阈值和噪声过滤,提升复杂环境下的检测精度
• 完全基于Swift和CoreML,专为Apple Silicon与Apple Neural Engine优化,避免GPU/MPS资源瓶颈
• 开源模型均托管于HuggingFace,采用MIT/Apache-2.0许可,方便二次开发与定制
• 支持macOS 14+和iOS 17+,提供Swift Package Manager集成,适配多种本地AI应用场景
• 正在拓展系统音频访问能力,未来将支持无缝接入CoreAudio,提升应用灵活性

FluidAudio已助力多款本地隐私优先的实时转录、会议助手与语音识别工具,满足专业与开发者对高效稳定语音处理的需求。
 
 
Back to Top