FluidAudio：苹果设备上的全本地低延迟音频处理框架，专注于实时语音识别与说话人分离，性能优异且资源占用极低

FluidAudio：苹果设备上的全本地低延迟音频处理框架，专注于实时语音识别与说话人分离，性能优异且资源占用极低。| #框架

• 支持自动语音识别（ASR），采用Parakeet TDT-0.6b模型，支持流式转录，延迟约1.2秒/分钟音频
• 说话人分离与聚类基于Pyannote模型，DER与JER指标优于多项业界方案，实时因子(RTF)仅0.02x，处理速度远超实时50倍
• 语音活动检测（VAD）内置Silero模型，支持自适应阈值和噪声过滤，提升复杂环境下的检测精度
• 完全基于Swift和CoreML，专为Apple Silicon与Apple Neural Engine优化，避免GPU/MPS资源瓶颈
• 开源模型均托管于HuggingFace，采用MIT/Apache-2.0许可，方便二次开发与定制
• 支持macOS 14+和iOS 17+，提供Swift Package Manager集成，适配多种本地AI应用场景
• 正在拓展系统音频访问能力，未来将支持无缝接入CoreAudio，提升应用灵活性

FluidAudio已助力多款本地隐私优先的实时转录、会议助手与语音识别工具，满足专业与开发者对高效稳定语音处理的需求。